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第 二 部 分 是 应 用 篇 ， 包 括 第 4 章 到 第 8 章 。 第 4 章 介绍 计算 性 能 ， 算 
是 更 偏 工程 的 唯 草 ; 第 5 章 介绍 的 是 文本 处 理 时 的 一 些 基 本 术语 ， 其 
中 相似 度 计 算 的 内 容 非 常 重要 ; 第 6 章 介绍 的 是 一 个 工业 搜索 引擎 需要 哪 
些 技术 点 ; 第 7 章 讲解 的 是 推荐 系统 的 知识 点 ; 第 8 章 介绍 理解 语言 的 难 
点 ， 包 括 两 大 知识 点 一 一 自然 语言 处 理 和 对 话 系统 ， 当 然 其 中 也 讨论 了 人 
们 对 人 工 智能 一 些 看 法 。 
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联合 概率 p(xwy) 表示 两 个 事件 共同 发 生 的 概率 。 假 如 这 两 个 
独立 ， 那 么 就 有 联合 概率 p(x;y) = p(x)pr)- 





事件 相互 

条 件 概率 po |x) 是 指 在 已 知事 件 x 发 生 的 情况 下 ， 事 件 y 发 生 的 概率 ， 

且 有 pb |x)=pCry)Yp09)。 如 果 这 两 个 事件 相互 独立 ， 那 么 po l 5 po) 相等 。 
联合 概率 和 条 件 概率 分 别 对 应 两 个 模型 : 生成 模型 和 判别 模型 。 我 们 








将 在 下 一 章 中 解释 这 两 个 模型 。 








概率 分 布 的 均值 称 为 期 望 ， 定 义 如 下 
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期 望 就 是 对 每 个 可 能 的 取 值 x， 与 其 对 应 的 概率 值 p(x)， 进 


和 。 假 如 一 个 随机 变量 的 概率 分 布 是 均匀 分 布 ， 那 么 它 的 期 望 误 
固定 的 值 ， 因 为 它 的 概率 分 布 PCO=1/V。 
概率 分 布 的 方差 定义 如 下 
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可 以 看 出 ， 方 差 是 表示 随机 变量 偏离 期 望 的 大 小 ， 所 以 它 是 衡量 数据 
的 波动 性 的 ， 方 差 越 小 表示 数据 越 稳 定 ， 反 之 ， 方 差 越 大 表示 数据 的 波动 
性 越 大 。 
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要 知道 的 几 个 常用 的 概率 分 布 : 均匀 分 布 、 正 态 分 布 、 
二 项 分 布 、 泊 松 分 布 、 指 数 分 布 ， 等 等 。 你 还 可 以 了 解 一 下 矩阵 的 知识 ， 
因为 所 有 公式 都 可 以 表示 成 矩阵 形式 。 


























1.2 信息论 


假如 一 个 朋友 告诉 你 外 面 下 雨 了 ， 





你 也 许 觉得 不 怎么 新 奇 ， 因 为 下 雨 
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是 很 平常 的 一 件 事情 ， 但 是 如 果 他 告诉 你 他 见 到 外 星人 了 ， 那 么 你 就 会 觉 
得 很 好 奇 : 真 的 吗 ? 外 星人 长 什么 样 ? 同样 两 条 信息 ， 一 条 信息 量 很 小 ， 
一 条 信息 量 很 大 ， 很 有 价值 ， 那 么 怎么 量化 这 个 价值 呢 ? 这 就 需要 信息 
Ki -AEE X HO BE SHB 

A(X) =-9 pœ)log p(x) 


xex 


信息 越 少 ， 事 件 ( 变 量 ) PEERK, CE HK, 
明白 该 事件 所 需要 的 额外 信息 就 越 多 ， 也 就 是 说 搞 清楚 小 概率 事件 所 需要 
的 额外 信息 较 多 ， 比 如 说 ， 为 什么 大 多 数 人 愿意 相信 专家 的 话 ， 因 为 专家 
在 他 专注 的 领域 了 解 的 知识 (信息 量 ) 多 ， 所 以 他 对 茶 事 件 的 看 法 较 透 彻 ， 
不 确定 性 就 越 小 ， 那 么 他 所 传达 出 来 的 信息 量 就 很 大 ， 听 众 搞 明 白 该 事件 
所 需要 的 额外 信息 量 就 很 小 。 总 之 ， 记 住 一 句 话 : 信息 粹 表示 的 是 不 确定 
NEE. fa RK, Aa ETEK. 


























































































































































































































RAM UN 
H(X,Y)=- 2, p(x, y)log p(x. y) 
xeX,yeY 
PKA MES ALA — i ELS E X A Y EN PE HE 
SENG IIE SUN 
H(Y|X)=- J, pO y)log p(y| x) 
xeX,yeY 





eA TSE: EAEE X CL, SLES 
了 的 不 确定 性 。 
FAX COU KL 距离 ， 信 息 增益 ) 的 定义 如 下 


Du (Pla) = 5 polog 22 
xeX q(x x) 


RELL Sa (Bs E HE ENARA CRO 的 差异 程度 (而 
Hi TE BS) AR 6s eB ee BEL HE FR) SSS op Ti EE IS, EAT 
RSA RA O, SENAERA, FESS. RAT SC KL 
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距离 ， 但 是 它 不 满足 距离 定义 的 3 个 条 件 中 的 两 个 : (1) 非 负 性 (满足 ); 
(2) 对 称 性 不 满足 ); G) 三 角 不 等 式 〈 不 满足 )。 它 的 物理 意义 就 是 如 
RH q 分 布 来 编码 尸 分 布 〈 一 般 就 是 真实 分 布 ) 的话， 平均 每 个 基本 事件 
编码 长 度 增 加 了 多 少 比特 。 

两 个 随机 变量 X 和 了 Y， 它 们 的 互信 息 定义 为 









































owe | E yl Py) 
(XY) (POD POPON= J, PENT 


互信 息 是 衡量 两 个 随机 变量 的 相关 程度 ， 当 和 和 了 完全 相关 时 ， 它 们 
的 互信 息 就 是 1; 反之 ， 当 开 和 了 完全 无 关 时 ， 它 们 的 互信 息 就 是 0。 

对 于 x 和 yy 两 个 具体 的 事件 来 说 ， 可 以 用 点 互信 息 (Pointwise Mutual 
Information) 来 表示 它们 的 相关 程度 。 后 面 的 章节 就 不 做 具体 区 分 ， 都 叫 
作 互 信息 。 









































天 
ARNE AiG) 





Ta AA PRA 
I(X;Y) = H(X)- H(X|Y) = HY) -H (Y|X) 
互信 息 和 KL 距离 有 如 下 关系 
I(X;Y) = Dk PG, y) || p(X) PO)) 


= Ex [Dk POWI pO] 
= E; [PDk (POW) || P] 


WORX ALY EAM, pay =PO) WDkleplga)=0, A 
息 也 为 0。 可 以 看 出 互信 息 是 KL 距离 的 期 望 。 
Be LW A E SCTE 
A(X,q) = H(X)+ Dg (Pq) 
=-)) pCOlogg(x) 《〈 离 散 分 布 时 ) 
它 其实 就 是 用 分 布 g 来 表示 了 的 炉 ， 也 就 是 说 用 分 布 q 来 编码 卫 ( 它 
的 完美 分 布 是 P) 需要 多 少 比特 。 












































1.3. MAMANI 


好 了 ， 介 绍 了 这 么 多 概念 公式 ， 那 么 我 们 来 个 实际 的 例子 ， 在 文本 处 


理 中 ， 有 个 很 重要 的 数据 刘 














程度 例如,“ 计算 机 ”和 “ 














是 词 的 互信 息 。 前 面 说 了 ， 互 信息 是 衡量 两 个 

















随机 变量 事件) 的 相关 程度 ， 那 么 词 的 互信 息 ， 就 是 衡量 两 个 词 的 相关 
更 件 ” 的 互信 息 就 比 “ 计 算 机 ”和 “杯子 ” 





的 互信 息 要 大 ， 因 为 它们 更 相关 。 那 么 如 何在 大 量 的 语 料 下 统计 出 词 与 词 





的 互信 息 呢 ?公式 中 可 以 看 到 























分 别 表示 x 独立 出 现 的 概率 ，y 独立 出 


需要 计算 3 ME: pa pO) Al poy) EA" 





纲 的 概率 ，x 和 了 同时 出 现 的 概率 。 














前 两 个 很 容易 计算 ， 直 接 统计 词 频 然 后 除 以 总 词 数 就 知道 了 ， 最 后 一 个 也 


很 容易 ， 统 计 一 下 x 和 yy 同时 出 现 ( 通 























常会 限定 一 个 窗口 ) 的 频率 ， 除 以 





所 有 无 序 对 的 个 数 就 可 以 了 。 这 样 ， 词 的 互信 息 就 计算 出 来 了 ， 这 种 统计 





最 适合 使 用 Map-Reduce 来 


1.3. WEA 








计算 。 


贝 叶 斯 法 则 是 概率 论 的 一 部 分 ， 之 所 以 单独 拿 出 来 介绍 ， 是 因为 它 真 
的 很 重要 。 它 是 托马斯 。 贝 叶 斯 生前 在 《机 遇 理 论 中 一 个 问题 的 解 》(4m 
Essay Towards Solving a Problem in Doctrine of Chance) 中 提出 的 一 个 当时 














叫 “ 逆 概率 ”问题 。 贝 叶 





斯 逝世 后 ， 由 

















他 的 一 个 朋友 蔡 他 发 表 了 该 论文 ， 























后 来 在 这 一 理论 基础 上 ， 逐 渐 























贝 叶 斯 法 则 的 定义 如 下 


p(x|y 


成 了 贝 叶 斯 学 派 。 


ja Zp 


p(y) 


p(x|) 称 为 后 验 概率 ，pQ|x) 称 为 似 然 概率 ,p(x) 称 为 先 验 概率 ， 


PO) 一 般 称 为 标准 化 常量 。 





也 就 是 说 ， 














后 验 概率 可 以 用 似 然 概率 和 先 验 概 


























率 来 表示 。 这 个 公式 非常 有 用 ， 很 多 模型 以 它 为 基础 ， 例 如 贝 叶 斯 模型 估 
计 、 机 器 翻译 、Query 纠 错 、 搜 索引 擎 等 等 。 在 后 面 的 章节 中 ， 大 家 经 常 








会 看 到 这 个 公式 。 

















好 了 ， 这 个 公式 看 着 这 















































么 简单 ， 到 底 能 有 多 大 作用 呢 ? 我 们 先 拿 中 文 
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分 词 来 说 说 这 个 公式 如 何 应 用 的 。 























Ei 
女 ， 














中 文 分 词 在 中 文 自然 语言 处 理 中 可 以 算是 最 | 

了 ， 因 为 几乎 所 有 的 文本 处 理 任务 都 要 首先 经 过 分 词 这 步 操作 ， 那 么 到 底 
护 么 对 一 句 话 分 词 呢 ?最 简单 的 方法 就 是 查 字 

出 现 了 ， 那 么 就 是 一 个 词 。 当 然 ， 查 字典 要 有 一 些 策略 ， 最 常用 的 就 是 最 

大 匹配 法 。 最 大 匹配 法 是 怎么 回 事 呢 ? 举 个 例子 来 说 ， 要 对 “中 国 地 图 ” 

来 分 词 ， 先 拿 “ 中 ”去 查 字典 ， 发 现 “ 中 ”在 字典 里 《单个 词 表 定 在 字典 

里 )， 这 时 肯定 不 能 返回 ， 要 接着 查 ,“ 中 国 ” 也 在 字典 里 ， 然 后 再 查 “中 








基本 的 一 个 技术 


ot 
Ml 
S 





典 ， 如 果 这 个 词 在 字典 中 

















































































































国 地 ”， 发 现 它 没 在 字典 里 ， 那 么 “中 国 ”就 是 一 个 词 了 ， 然 后 以 同样 的 











方法 处 理 剩 下 的 句子 。 所 以 ， 最 大 匹配 法 就 是 匹配 在 字典 中 出 现 的 最 长 的 
词 。 查 字典 法 有 两 种 : 正 向 最 大 匹配 法 和 反 向 最 大 匹配 法 ， 一 个 是 从 前 向 

































































后 匹配 ， 一 个 是 从 后 向 前 匹配 。 但 是 查 字典 法 会 遇 到 一 个 自然 语言 处 理 中 





很 灰 手 的 问题 : 歧义 问题 。 如 何 解决 歧义 问题 呢 ? 
我 们 就 以 “学 历史 知识 ”为 例 来 说 明 ， 使 用 正 向 最 大 匹配 法 ， 我 们 把 








“学 历史 知识 ”从 头 到 尾 扫描 匹配 

















饥 ， 就 被 分 成 了 “学 历 \ 史 \ 知 识 ”， 


























很 显然 ， 这 种 分 词 不 是 我 们 想 要 的 结果 ; 但 是 如 果 我 们 使 用 反 向 最 大 匹配 
法 从 尾 到 头 扫描 匹配 一 遍 ， 那 就 会 分 成 “学 /历史 /知识 ”， 这 才 是 我 们 想 
要 的 分 词 结果 。 可 以 看 出 用 查 字典 法 来 分 词 ， 就 会 存在 二 义 性 ， 一 种 解决 
办 法 就 是 分 别 从 前 到 后 和 从 后 到 前 匹配 。 在 这 个 例子 中 ， 我 们 分 别 从 前 到 



































后 和 从 后 到 前 匹配 后 ， 将 得 到 “学 


很 显然 ， 这 两 个 分 词 都 有 “知识 ”， 
后 就 看 “学 历 \ 史 ”和 “学 /历史 ” 






























































历 \ 史 \ 知 识 ” 和 “学 /历史 /知识 ”， 
那么 说 明 “ 知 识 ” 是 正确 的 分 词 ， 然 
OS IER. MEIN AES, R 
































自然 想到 “学 /历史 ”是 正确 的 ， 为 什么 呢 ? AA C1) 在 “学 历 \ 史 ”中 








“ 史 ” 这 个 词 单独 出 现 的 概率 很 小 ， 






































在 现实 中 我 们 几乎 不 会 单独 使 用 这 个 








i: (D “学历 ”和 “ 史 ” 同 时 出 现 的 概率 也 要 小 于 “学 ”和 “历史 ” 同 
时 出 现 的 概率 ， 所 以 “学 / 历史 ”这 种 分 词 将 会 胜出 。 这 只 是 我 们 人 类 大 








脑 的 猜测 ， 有 什么 数学 方法 证 明 呢 ? 



































有 ， 那 就 是 基于 统计 概率 模型 。 


1.3. Wee 


























我 们 的 数学 模型 表示 如 下 : 假设 用 户 输 入 的 句子 用 S 表示， 把 $ 分 词 
后 可 能 的 结果 表示 为 A : Ay, Age, Ay CA; 表示 词 )， 那 么 我 们 就 是 求 条 件 
概率 pA | S) 达到 最 大 值 的 那个 分 词 结果 。 这 个 概率 不 好 求 出 ， 这 时 贝 叶 
斯 法 则 就 用 上 派 场 了 ， 根 据 贝 叶 斯 公式 改写 为 
P| APA) 

P(S) 
显然 ，p(S) 是 一 个 常数 ， 那 么 公式 相当 于 改写 成 

p(A|S) xc p(S| A)p(A) 

其 中 ，p(S | A) 表示 (A) 这 种 分 词 生 成 句子 S 的 可 能 性 ; p(A) 表示 (A) 
这 种 分 词 本 身 的 可 能 性 。 

下 面 的 事情 就 很 简单 了 。 对 于 每 种 分 词 计算 一 下 P(S | A)p(A) 这 个 值 ， 
然后 取 最 大 的 ， 得 到 的 就 是 最 靠 谱 的 分 词 结果 。 比 如 “学 历史 知识 ”(〈 用 
S 表示 ) 可 以 分 为 如 下 两 种 (当然 ， 实 际 情况 就 不 止 两 种 情况 了 ):“ 学 历 \ 
史 \ AR” GH A 表示 ，A= 学 历 A= SE, A= RIVA) 和 “学 /历史 /知识 ”( 用 
Bm, B=, BEJE, B= 知识 )， 那 么 我 们 分 别 计算 一 下 p(S | A) 
P(A) 和 p(S | B)p(B)， 哪 个 大 ， 就 说 明 哪 个 是 好 的 分 词 结果 。 

但 是 p(S|Ai,As,…Ar)p(Ai,As,…Ax) 这 个 公式 并 不 是 很 好 计算 ， 
pP(S|Ai,A,…A) 可 以 认为 就 是 1， 因 为 由 Al,A,…,Ax 必 然 能 生成 Ss， 那 
么 剩 下 的 问题 就 是 如 何 计算 p(Ai,A,,.…,Arx)。 

在 数学 中 ， 要 想 简 化 数学 模型 ， 就 要 利用 假设 。 我 们 假设 句子 中 一 个 
词 的 出 现 概率 只 依赖 于 它 前 面 的 那个 词 (当然 可 以 依赖 于 它 前 面 的 m 个 
词 )， 这 样 ， 根 据 全 概率 公式 

P(A,A,.. A) = 
P(A P(A, |A P(A; | Ay, Ay)... P(A; | Ay, As,..., Aga) 
就 可 以 改写 为 
P(A}, A23.: A) = PADCA, | Ar) PCAs | Az). PCA; | Aga) 
接 下 来 的 问题 就 是 如 何 估 计 P(A.|A. 1). Ai, PAJA 1) = pA 1,A;)/ 


































































































p(A|S)= 
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P(Ai-D)， 这 个 问题 变 得 很 简单 ， 只 要 数 一 数 CAA) 这 对 词 在 统计 的 文 
本 中 前 后 相 邻 出 现 了 多 少 次 ， 以 及 Ai 本 身 在 同样 的 文本 中 出 现 了 多 少 次 ， 
然后 用 两 个 数 除 以 它 就 可 以 了 。 

上 面 计 算 p(Ai,A,,…Aj) 的 过 程 其 实 就 是 统计 语言 模型 ， 然 而 真正 在 
计算 语言 模型 的 时 候 ， 要 对 公式 进行 平滑 操作 。Zipf 定律 指出 : 一 个 单词 
出 现 的 频率 与 它 在 频率 表 里 的 排名 《〈 按 频率 从 大 到 小 ) 成 反比 。 这 说 明 
对 于 语言 中 的 大 多 数 词 ， 它 们 在 语 料 中 的 出 现 是 稀疏 的 ， 数 据 稀 玻 会 导致 
所 估计 的 分 布 不 可 靠 ， 更 严重 的 是 会 出 现 零 概率 问题 ， 因 为 p(Ai, 人 A;) 的 
值 有 可 能 为 0， 这 样 整 个 公式 的 值 就 为 0， 而 这 种 情况 是 很 不 公平 的 ， 所 
以 平滑 解决 了 这 种 零 概率 问题 。 有 具体 的 平滑 算法 读者 可 以 参考 论文 《An 
Empirical Study of Smoothing Techniques for Language Modeling). 

然而 在 实际 系统 中 ， 由 于 性 能 等 因素 ， 很 少 使 用 语言 模型 来 分 词 消 
歧 ， 而 是 使 用 序列 标注 模型 《后 面 章 节 会 讲 到 )、 语 料 中 词 与 词 的 共 现 信 
县 、 词 的 左 糯 《该 词 左边 出 现 过 的 所 有 词 的 信息 糯 之 和 ) MA OA 
边 出 现 过 的 所 有 词 的 信息 烂 之 和 )， 以 及 一 些 词典 等 方法 来 消 歧 。 新 词 发 
现 技 术 也 和 这 个 技术 差不多 。 
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1.4 ”问题 与 思 


1. is AIRAS NOIR AE ETE ? 
2. WTA TR eT, APM ? 






































第 2 i 
我 们 生活 在 一 个 寻求 最 优 解 的 
世界 里 








_ 从 、 良 小 说 里 ， 一 般 来 说 ， 一 个 人 的 内 功 越 高 他 的 武功 就 越 高 ， 例 
YL 和 如 ， 练 了 《 易 筋 经 》 之 后 ， 随 便 练 点 什么 招式 都 能 成 为 高 手 。 
最 优化 模型 就 是 机 器 学 习 的 “内 功 ?， 几 乎 每 个 机 器 学 习 模 型 的 背后 都 是 
一 个 最 优化 模型 。 本 章 讲 解 最 优化 模型 。 
































2.1 最 优化 问题 


通常 人 们 会 认为 商人 最 精明 ， 因 为 他 们 总 是 希望 付出 最 小 的 成 本 来 获 
得 最 大 的 收益 。 其 实 ， 我 们 每 个 人 都 生活 在 一 个 寻求 最 优 解 的 世界 里 ， 因 
为 人 心 是 贪 末 的 ， 人 们 永远 想得到 他 们 认为 最 好 的 东西 。 我 们 买 东西 的 时 
候 ， 是 不 是 希望 花 尽 可 能 少 的 钱 买 到 质量 更 好 的 物品 ? 我们 从 一 个 地 方 去 
到 另 一 个 地 方 ， 是 不 是 希望 尽 可 能 走 最 短 的 路 线 ? 

科学 抽象 于 生活 ， 科 学 服务 于 生活 。 几 乎 每 个 机 器 学 习 问 题 背后 都 是 
一 个 最 优化 问题 。 一 般 的 最 优化 形式 表示 如 下 
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min f(x) 
st. h(x)=0 
g(x)0 

Ax) 是 目标 函数 ，h(x) 和 g(x) 分 别 是 约束 条 件 ， 有 的 问题 可 以 没有 约 
RAT: 只 有 ftx)， 称 为 无 约束 优化 ， 只 有 ftx) 和 h(x)， 称 为 有 等 式 约束 优 
化 ; ftx) 和 h(x)、g(x) 都 有 ， 称 为 有 不 等 式 约束 优化 。 

那么 目标 函数 到 底 是 什么 呢 ? 

提出 一 个 机 器 学 习 问 题 以 后 ， 肯 定 会 有 一 个 真实 模型 可 以 解决 它 ， 但 
是 我 们 并 不 知道 这 个 真实 模型 是 什么 (如 果 能 知道 的 话 ， 那 就 不 用 学 习 了 ， 
直接 用 这 个 模型 就 可 以 了 )， 那 么 就 要 设计 一 个 模型 来 代替 真实 模型 ( 假 
BA = fx) 为 你 设计 的 模型 ，y = RC) 为 真实 模型 ，x = fx, 7 xy} 为 整个 模 
型 的 输入 )， 那 么 怎么 才能 说 你 设计 的 这 个 模型 很 好 呢 ? 很 简单 ， 你 设计 
的 模型 和 真实 模型 的 误差 越 小 ， 那 就 说 明 你 的 模型 越 好 。 误 差 通常 使 用 损 
失 函 数 来 表示 ， 常 用 的 损失 函数 有 以 下 几 种 

平方 损失 : L(y, f(x))=(f -y 

绝对 损失 : L(y, (x)=|f -l 

合 页 损失 : L(y, f(x) =max(0,1— y- fx) 

似 然 损失 : L(y, f(x) =—log PO |x) 

合 页 损失 一 般 会 要 求 ftx) 取 值 范围 是 [-1，1]，y 取 值 是 -1 或 1。 似 然 
损失 的 最 小 化 ， 就 是 求 logPQ@y |x) 的 最 大 化 ， 这 就 是 后 面 专门 要 介绍 的 最 
大 似 然 估计 。 

而 损失 函数 〈 误 差 ) 的 期 望 ， 称 为 期 望 风 险 。 学 习 的 目标 就 是 使 期 户 
风险 最 小 ， 即 (M 为 样本 数 ) 



















































































































































































5 ee es 
min m SL( y f(x 9) 


























前 面 不 是 说 真实 模型 是 不 知道 的 吗 ? 那么 它们 的 期 望 风险 自然 也 没 法 
计算 了 ， 怎 么 最 小 化 这 个 期 望 风 险 啊 ? 期望 风 险 是 指 你 设计 的 模型 和 真实 














2.1 最 优化 问题 








模型 的 期 望 误差 ， 不 知道 真实 模型 自然 求 不 出 来 期 望 风 险 了 ， 虽然 我 们 不 
知道 真实 模型 y= R(x) 是 什么 ， 但 是 如 果 我 们 知道 所 有 的 输入 x 和 它 对 应 
的 输出 yy 的话， 那么 我 们 也 没 必要 知道 这 个 模型 RR 是 什么 了 ， 因 为 你 给 任 
何 一 个 输入 x， 我 都 可 以 计算 一 个 最 优 的 y (显然 这 不 可 能 成 立 ， 能 成 立 的 
话 ， 也 没 必要 求 模 型 了 )。 那 我 们 找 一 些 输入 x'〈 它 肯定 是 x 的 子 集 )， 然 
后 用 人 工 的 笨 办 法 把 x' 的 所 有 最 优 y' 算 出 来 (D={x,y} 称 为 样本 对 )， 这 
样 ， 我 们 在 计算 期 望 风险 的 时 候 ， 用 计算 好 的 > 直接 替代 真实 模型 7 = R(x) 
就 可 以 了 。 用 这 种 方法 计算 出 来 的 风险 就 是 经 验 风 险 ， 根 据 大 数 定理 ， 当 
样本 对 趋 于 无 穷 大 时 ， 经 验 风 险 也 就 越 接近 期 望 风险 。 所 以 ， 我 们 就 可 以 
j 经 验 风 险 最 小 化 来 估计 期 望 风险 。 

但 是 ， 我 们 的 样本 对 有 限 ， 这 就 导致 经 验 风险 估计 期 望 风 险 并 不 理 
想 ， 会 产生 过 拟 合 现象 。 过 拟 合 现象 就 是 你 把 样本 数据 拟 合 的 太 完美 ， 也 
可 以 说 是 模型 复杂 度 很 高 ， 然 而 到 未 知 数 据 中 却 拟 合 的 很 差 ( 这 种 对 未 知 
数据 的 预测 能 力 叫 做 泛 化 能 力 为 相反 ， 欠 拟 合 现象 就 是 在 样本 数据 上 拟 
合 的 不 好 ， 在 未 知 数据 上 也 拟 合 得 不 好 。 所 以 ， 为 了 尽 可 能 避免 过 拟 合 现 
象 的 出 现 ， 就 要 对 模型 的 复杂 度 进行 惩罚 ， 这 就 是 正则 化 ， 这 是 很 常用 的 
方法 ， 其 实 就 是 对 模型 的 参数 进行 惩罚 。 这 样 ， 就 相当 于 目标 函数 变 成 了 









































































































































































































































1 
min DEOL OD) +77(7) 
i=l 
这 也 叫 结构 风险 最 小 化 。 正 则 化 公式 可 以 有 很 多 种 ， 常 用 的 是 : Ly 范 
ML, WR. L wR. Ly 范 数 就 是 求解 非 零 元 素 的 个 数 , 芽 | 范 数 和 万 范 
数 分 别 如 下 定义 

















JCD=|6 


N 
= 24! 
2 2 


UEF, L 范 数 更 倾向 产生 稀 玻 特征 ， 而 二 范 数 更 容易 避免 过 拟 合 。 


7(/)=lle 
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读者 可 以 仔细 想 想 为 什么 。 
现在 还 有 个 问题 ， 对 于 一 个 优化 问题 ， 我 的 模型 可 以 有 好 多 种 选择 ， 
最 简单 的 如 fix,0) 中 0 选 的 不 同 ， 那 么 最 终结 果 就 不 同 ， 如 何 确定 一 个 好 
的 模型 呢 ? 那 就 需要 交叉 验证 。 
交叉 验证 就 是 随机 的 把 样本 数据 分 成 训练 集 和 验证 集 。 首 先 在 训练 
集中 训练 出 各 种 模型 (x,0), (x,0),…， 然 后 在 验证 集 上 评价 各 个 模型 的 
误差 ， 选 出 一 个 误差 最 小 的 模型 就 是 好 的 模型 。 在 这 儿 ， 就 要 解释 两 个 
概念 : 偏差 和 方差 。 偏 差 是 衡量 单个 模型 的 误差 ， 例 如 ，fi(x,9) 这 个 模 
型 的 偏差 就 可 以 用 =(f(x,9)-y) 来 表示 ， f(x,0) 这 个 模型 的 偏差 可 以 
FAL, =EN- "来 表示 。 所 以 偏差 是 衡量 单个 模型 自身 的 好 坏 ， 
并 不 管 别 的 模型 怎么 样 ， 而 方差 是 用 来 比较 多 个 模型 ， 它 并 不 管 自己 
个 模型 和 真实 模型 的 误差 多 大 ， 而 是 从 别 的 模型 来 衡量 自己 的 好 坏 ， 
就 是 它 认 为 所 有 模型 的 平均 值 ， 就 可 以 代表 真实 模型 〈 这 也 有 个 潜在 假 
w: 大 多 数 情况 是 正常 无 噪声 的 ， 和 否则 平均 值 也 代表 不 了 真实 模型 )， 那 
么 它 和 这 个 平均 值 比较 就 可 以 了 ， 例 如 ，fi(x,9) 这 个 模型 的 方差 就 可 以 用 
(f(%,0)—-(L, +14)/2) 来 表示 。 从 这 儿 ， 我 们 就 可 以 得 出 一 些 结论 ， 一 个 
模型 越 复 杂 ， 偏 差 就 越 小 ， 方 差 就 越 大 ;， 相反， 一 个 模型 越 简单 ， 偏 差 就 
越 大 ， 方 差 就 越 小 ， 如 图 2.1 所 示 。 这 两 个 概念 就 是 一 个 博弈 的 过 程 ， 最 
好 的 模型 就 是 偏差 和 方差 之 和 最 优 的 模型 。 
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2.2 最 大 似 然 估计 /最 大 后 验 估计 








你 需要 根据 实际 问题 设计 一 个 模型 ， 设 计 出 它 的 目标 函数 ， 然 后 可 以 
根据 交叉 验证 选 个 最 好 的 模型 (如 果 你 的 数据 较 好 ， 这 步 有 时 可 以 省 略 )。 
这 就 是 求 最 优化 模型 的 过 程 。 
































2.2 最 大 似 然 估 计 / 最 大 后 验 估计 


从 前 面 的 讲解 中 可 以 看 出 ， 对 一 个 最 优化 问题 ， 我 们 首先 要 选 定 模型 
有 = ftx,9)， 但 是 这 个 模型 hh 会 有 无 穷 多 个 选择 ， 到 底 要 选 哪个 昵 ?” 如 果 你 
现在 要 急用 钱 ， 那 你 首先 想到 的 是 找 家 人 或 者 朋友 去 借 钱 ， 总 不 能 找 美国 
总 统 去 借 吧 ; 同样 ， 选 模型 也 是 优先 选择 我 们 熟悉 的 模型 ， 例 如 ， 线 性 模 
型 、 高 斯 模型 等 。 因 为 这 些 模 型 我 们 已 经 研究 得 很 透彻 了 ， 只 需 根据 样本 
数据 代入 公式 就 可 以 求解 出 它们 的 参数 9， 这 就 是 参数 估计 ; 如 果 对 一 无 
所 知 的 模型 估计 参数 ， 那 就 是 非 参 数 估计 。 

参数 估计 也 有 很 多 种 方法 ， 最 常用 的 就 是 最 小 二 乘法 、 最 大 似 然 估计 
和 贝 叶 斯 估计 等 。 

最 大 似 然 估 计 和 贝 叶 斯 估计 分 别 代 表 了 频率 派 和 贝 叶 斯 派 的 观点 。 频 
率 派 认 为 ， 参 数 是 客观 存在 的 ， 只 是 未 知 而 已 ， 因 此 ， 频 率 派 最 关心 最 大 
似 然 函 数 ， 只 要 参数 求 出 来 了 ， 给 定 自 变量 x， 它 的 结果 yy 也 就 知道 了 。 
假设 我 们 观察 的 变量 是 x， 观 察 的 变量 取 值 (样本 ) 为 x= fx,…,xw}， 要 
估计 的 模型 参数 是 9,，x 的 分 布 函 数 是 p(x | 0)。 那 么 最 大 似 然 函数 就 是 0 
的 一 个 估计 值 ， 它 使 得 事件 发 生 的 可 能 性 最 大 ， 即 

Cs = argmax yg p(x|0) 


通常 ， 我 们 认为 x 是 独立 同 分 布 的 ， 即 有 




































































































































































N 
px|0)=[ I]. pl) 
由 于 连 乘 会 可 能 造成 浮 点 下 溢 ， 所 以 通常 就 最 大 化 对 数 形式 ， 也 就 是 


N 
OE = argmax g {be p(x | 0)| 
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所 以 最 大 似 然 估计 的 一 般 求解 流程 就 是 : 








CL) 写 出 似 然 函数 : LO) =p) =|" p1; 
(2) 对 似 然 函数 取 log: L(O) = logC(O)= 》 log p(x10); 
(3) 求 argminoL(9) (或 者 argming(-L(9))) : 求解 方法 见 下 一 节 。 


最 大 似 然 估计 中 9 是 一 个 固定 的 值 ， 只 要 这 个 0 能 很 好 地 拟 合 样本 x 
就 是 好 的 ， 前 面 说 了 ， 它 拟 合 样本 数据 很 好 ， 不 一 定 拟 合 未 知 数据 就 很 好 
《过 拟 合 现象 )。 所 以 用 频率 派 的 理论 可 以 得 出 很 多 扭曲 事实 的 结论 ， 例 
如 ， 只 要 我 没 看 到 过 飞机 相 撞 ， 那 么 飞机 永远 就 不 可 能 相 撞 。 这 时 ， 贝 叶 
斯 学 派 就 开始 说 了 ， 参 数 0 也 应 该 是 随机 变量 CP(O)) ， 和 一 般 随 机 变量 没 
有 本 质 区 别 ， 它 也 有 概率 (9 取 不 同 值 的 概率 ) ， 也 就 是 说 ， 尽 管 我 没 看 到 
飞机 相 撞 ， 但 是 飞机 还 是 有 一 定 概率 可 能 相 撞 。 正 是 因为 参数 不 能 固定 ， 
当 给 定 一 个 输入 x 后 ， 我 们 不 能 用 一 个 确定 的 表示 输出 结果 ， 必 须 用 一 
个 概率 的 方式 表达 出 来 。 所 以 ， 我 们 希望 知道 所 有 0 在 获得 观察 数据 x 后 
的 分 布 情 况 ， 也 就 是 后 验 概率 p(0 |x)， 根 据 贝 叶 斯 公式 有 
PLOP) POPCO) 

p(x) | p(x|0)p(0)d0 

可 惜 的 是 ， 上 面 的 后 验 概率 通常 是 很 难 计算 的 ， 因 为 要 对 所 有 的 参数 
进行 积分 ， 而 且 ， 这 个 积分 其 实 就 是 所 有 0 的 后 验 概率 的 汇总 ， 其 实 它 是 
与 最 优 9 是 无 关 的 ， 而 我 们 只 关心 最 优 9。 在 这 种 情况 下 ， 我 们 采用 了 一 
种 近似 的 方法 求 后 验 概率 ， 这 就 是 最 大 后 验 估计 

Omar = argmax g p(A|x) = argmax g p(x|) p(A) 

最 大 后 验 估计 相 比 最 大 似 然 估计 ， 只 是 多 了 一 项 先 验 概 率 ， 它 正好 体 
现 了 贝 叶 斯 认为 参数 也 是 随机 变量 的 观点 ， 在 实际 运算 中 ， 通 常 通过 超 参 
数 给 出 先 验 分 布 。 最 大 似 然 估计 其 实 是 经 验 风 险 最 小 化 的 一 个 例子 ， 而 最 
大 后 验 估计 是 结构 风险 最 小 化 的 一 个 例子 。 如 果 样 本 数据 足够 大 ， 最 大 后 























































































































































































































P(Ax) = 













































































































































































2.3 梯度 下 降 法 








验 概 率 和 最 大 似 然 估 计 赵 向 于 一 致 ， 如 果 样 本 数据 为 0， 最 大 后 验 就 仅 由 



































先 验 概率 决定 ， 就 像 推 荐 系统 中 对 于 一 个 富 无 历史 数据 的 用 户 ， 只 能 先 给 
他 推荐 热门 ( 先 验 概率 高 ) 的 内 容 了 人。 尽管 最 大 后 验 估计 看 着 要 比 最 大 似 














然 估计 完善 ， 但 是 由 于 最 大 似 然 估计 简单 ， 很 多 方法 还 是 使 用 最 大 似 然 估 





计 ， 也 就 是 说 ， 频 率 派 和 贝 叶 斯 派 谁 也 没 把 谁 取代 掉 。 





搞 懂 了 最 大 似 然 估 计 和 最 大 后 验 估计 ， 那 么 我 们 顺带 说 下 最 小 二 乘 估 














计 。 对 于 最 小 二 乘法 估计 ， 当 从 模型 总 体 随 机 抽取 M 组 样本 观测 值 后 ， 最 
合理 的 参数 估计 值 应 该 是 使 得 模型 能 最 好 地 拟 合 样本 数据 ， 也 就 是 估计 值 
和 观测 值 之 差 的 平方 和 最 小 。 而 对 于 最 大 似 然 估 计 ， 当 从 模型 总 体 随机 抽 
取 M 组 样本 观测 值 后 ， 最 合理 的 参数 估计 值 应 该 使 得 从 模型 中 抽取 该 M 
组 样本 观测 值 的 概率 最 大 。 显 然 ， 这 是 从 不 同 原理 出 发 的 两 种 参数 估计 方 







































































法 。 而 且 ， 最 小 二 乘 估计 有 个 假设 : 模型 服从 高 斯 分 布 。 
























































现在 我 们 已 经 知道 如 何 构造 最 优化 问题 的 目标 函数 了 ， 

















f H. 








行 参数 估计 的 一 些 方法 ， 剩 下 的 问题 就 是 如 何 具 体 地 求解 参数 了 。 


2.3 梯度 下 降 法 


大 多 数 最 优化 问题 ( 凸 规划 ) 是 有 全 局 最 优 解 的 (参见 图 22 左 图 )， 而 有 

















的 最 优化 问题 只 有 局 部 最 优 解 ， 当 然 局 部 最 优 解 有 可 能 就 是 全 局 最 优 解 ， 但 是 
不 容易 使 得 得 到 的 局 部 最 优 解 就 正好 是 全 局 最 优 解 〈 参 见 图 2.2 AR. RE 



































了 解 了 进 














最 优化 问题 ， 本 质 上 就 是 怎么 向 最 优 解 靠近 ， 达 到 某 个 条 件 〈 收 敛 ) 就 停止 。 
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有 的 最 优化 问题 有 解析 解 ， 可 以 直接 求解 ， 那 么 怎么 求解 呢 ?” 直 接 对 
央求 导 数 ， 然 后 令 导 数 为 零 ， 就 可 以 解 出 候选 最 优 解 了 。 

有 的 最 优化 问题 没有 解析 解 ， 只 能 通过 一 些 启发 式 算法 (遗传 算法 、 
模拟 退火 算法 等 ) 或 者 数值 计算 的 方法 来 求解 。 对 于 无 约束 优化 问题 ， 常 
用 的 算法 大 概 有 梯度 下 降 法 、 牛 顿 法 / 拟 牛 顿 法 、 共 轿 梯 度 法 等 (这 些 方 
法 使 用 导数 ， 还 有 些 算法 是 不 使 用 导数 的 )。 而 对 于 有 约束 优化 问题 ， 大 
多 是 通过 拉 格 朗 日 乘 子 法 转换 成 无 约束 问题 来 求解 。 

本 蔬 就 以 线性 回归 模型 来 看 下 梯度 下 降 法 《也 叫 批 量 梯度 下 降 法 ) 到 
底 是 怎么 回 事 ? 假设 有 如 下 表示 的 线性 函数 















































































































































N 
f(x,0) = O + ON + OX, Pe > 0%, = Ox 
i=0 











如 果 它 的 损失 函数 使 用 平方 损失 函数 ， 则 有 《没有 正则 化 ): 











M 
O=O- y PMR 
j=1 








BORE PMA, BASERA x 沿 着 梯度 相反 的 方向 下 降 最 快 ， 也 
就 是 说 我 从 茶点 x 出 发 ， 沿 着 梯度 相反 的 方向 移动 ， 就 可 以 找到 最 优 解 
《使 得 损失 函数 最 小 ) 了 。 梯 度 是 什么 呢 ? 在 这 儿 就 是 导数 。 所 以 它 的 每 
一 步 的 迭代 公式 就 是 
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其 中 a 是 个 定 值 ， 就 是 学 习 速 度 ， 控 制 每 步 移动 的 幅度 。 
相反 ， 如 果 求 损失 函数 最 大 化 的 话 ， 就 是 梯度 上 升 法 
is a © 
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2.3 梯度 下 降 法 


-2 o- 0) - fe! 0 
30, M 
所 以 最 终 的 迭代 公式 就 是 


ie 
6=64+a VEN x! 6 x; 
FE > Q — f(x ,0)) 





梯度 下 降 法 的 流程 就 是 





while 〈 直 到 收敛 ) : 


line ae ; 
0. =0, +a — “三 E A E =N 
a, ure SO, 0x ( ) 

















这 就 是 梯度 下 降 法 的 迭代 流程 ， 首 先 任意 选 定 一 个 9， 然 后 使 用 公式 
ER, EHAS O 的 变化 小 于 一 个 阅 值 ) 停止 ， 就 解 出 了 参数 0。 
可 以 看 出 ， 公 式 中 有 个 求 和 计算 ， 也 就 是 每 次 迭代 都 需要 计算 全 部 样 
本 ， 所 以 当 样本 M 很 大 时 ， 计 算 代 价 很 大 ， 那 么 就 需要 考虑 个 好 的 办 法 减 
少 计算 ， 这 就 是 随机 梯度 下 降 法 〈Stochastic Gradient Descent, SGD). 
随机 梯度 下 降 法 并 不 计算 梯度 的 精确 值 ， 而 是 计算 一 个 估计 值 ， 也 就 
是 每 次 迭代 都 是 基于 一 个 样本 ， 和 迭代 流程 就 成 为 


























































































































for j=1 to M: 
0, = 0, + aly’ — f(x’, 0))x/ (i=0,…,N) 





这 个 公式 有 什么 好 处 呢 ? 它 可 以 并 行 计算 ， 因 为 样本 之 间 是 无 关 的 。 
所 以 当 样 本 特别 大 时 ， 可 以 使 用 随机 梯度 下 降 法 ， 它 的 缺点 是 通常 找到 的 
最 小 值 是 最 优 解 的 近似 值 。 梯 度 下 降 法 收敛 太 慢 了， 尤其 接近 最 优 解 的 时 
候 ， 因 此 在 样本 规模 很 大 时 ， 经 常 使 用 一 些 优 化 算法 ， 如 LBFGS (《On 
The Limited Memory BFGS Method for Large Scale Optimization 

当然 ， 通 常 使 用 一 种 介 于 梯度 下 降 法 和 随机 梯度 下 降 法 之 间 的 方法 ， 
叫 mini-batch 梯度 下 降 法 。 它 的 思想 是 ， 每 次 使 用 2 个 样本 (5b < M) 来 更 
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新 梯度 ， 流 程 如 下 





for k=1 to M/b: 


6, = g +a > K — f (x/,6))x/ (i =0,; N) 


=bk—b 





在 这 儿 要 记 住 两 个 观点 :(1)〉 要 想得到 最 优 解 就 要 付出 更 大 的 代价 。 
就 像 生 活 中 ， 帅 儿 郎 当 的 人 活 得 会 比较 轻松 ， 因 为 他 做 事 不 需要 最 优化 ; 
谨慎 细致 的 人 就 活 得 比较 累 ， 每 件 事情 都 要 做 到 最 好 ， 不 同性 格 的 人 有 不 
同 的 生活 态度 ， 没 有 对 错 。(2) 好 多 问题 没有 最 优 解 或 者 无 法 求 出 最 优 解 ， 
那么 就 要 用 近似 的 方法 来 求解 出 近似 最 优 解 。 生 活 中 好 多 事情 压根 没 办 法 
做 到 十 全 十 美 ， 所 以 我 们 只 能 尽 自己 最 大 努力 达到 尽 可 能 好 。 

梯度 下 降 法 是 最 简单 且 很 好 理解 的 一 个 算法 ， 理 解 了 这 个 算法 ， 学 习 
其 他 求解 算法 (牛顿 法 / 拟 牛 顿 法 、 共 轿 梯 度 法 、LBFGS 等 ) 就 较 容易 了 。 

对 于 无 约束 优化 问题 ， 我 们 已 经 知道 一 些 求解 算法 了 ， 那 么 还 有 两 类 
问题 ， 等 式 约束 优化 问题 和 不 等 式 约束 优化 问题 。 

对 于 等 式 约束 优化 问题 
































































































































min f(x) 
st. h(x)=0 


写 出 它 的 拉 格 朗 日 乘 子 法 
L(x,@) = f(x) + ah(x) 
这 样 就 可 以 使 用 无 约束 优化 问题 的 所 有 求解 方法 来 求解 参数 了 ， 只 
过 参数 是 zx 和 wx 了 。 
对 于 不 等 式 约束 优化 问题 
wa FO) 
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g(x) S0 








写 出 它 的 拉 格 朗 日 乘 子 法 








2.3 梯度 下 降 法 


L(x,a,B)=flx)tah(x)+Bg(x) E = 0) 

但 是 上 式 要 想 有 和 原 不 等 式 约束 优化 问题 一 样 的 最 优 解 ， 必 须 满 足 
KKT 条 件 : (1) Lap) 分 别 对 x REHE; (2) pe(x)=0; (3) gx) <0; 
(4) 三 0，a 关 0; (5) h(x) = 0。KKT 条 件 是 使 一 组 解 成 为 最 优 解 的 必 
要 条 件 。 
对 于 有 约束 优化 问题 ， 当 原 问 题 不 太 好 解决 的 时 候 ， 可 以 利用 拉 格 朗 
日 乘 子 法 得 到 其 对 偶 问 题 ， 满 足 强 对 偶 性 条 件 时 ， 它 们 的 解 是 一 致 的 。 那 
么 什么 是 对 偶 问 题 呢 ? 还 是 以 上 述 不 等 式 约束 问题 为 例 说 明 ， 写 出 它 的 拉 
格 朗 日 函数 
























































Lx, a,B)=flx)tah(x)t+Be(x) (B = 0) 

PR YE LT RO, Œ) = max, p ps9 L(x, ap) 

这 个 函数 是 a、B 的 函数 ， 如 果 x 违 反 原 始 问题 的 约束 条 件 ， 即 
h(x) 关 0 或 者 g(x)>0， 那 么 我 们 总 是 可 以 调整 a 和 三 0 来 使 得 0,(x) 有 最 
大 值 为 正 无 穷 ， 而 只 有 h(x) 和 g(x) 都 满足 约束 时 ，000 为 ftx)， 也 就 是 说 
Ox) 的 取 值 是 ftx) 或 者 < 。 所 以 min ftx) 就 转 为 求 min,0,(x) T, 

Ef min, 6, (x) =min,max, gpz0L(x,0, 8) CE HERRE). 
再 定义 一 个 函数 0 (a, B) = min, L(x,a, 8), MW) A maxa p, g=094(@, p) = 
max, p p>omMin, L(x, æ, 2) ( 它 的 最 优 解 记 为 @)。 

0.00 和 0 09 互 为 对 偶 问题 。 可 以 证 明 ，4d 三 p， 如 果 满 足 强 对偶 性 一 一 
目标 函数 和 所 有 不 等 式 约束 函数 是 凸 函 数 ， 等 式 约 束 函 数 是 仿 射 函数 ( 形 
如 y=wx+4b)， 且 所 有 不 等 式 约束 都 是 严格 的 约束 ， 那 么 4=p ， 就 是 说 
原 问 题 和 对 侦 问题 的 解 一 致 。 

对 偶 原 理 告 诉 我 们 ， 如 果 min f(x) = min, max, p p>) LX,0,B) 不 好 求 
解 ， 那 么 就 求解 maxu .gp,p=omin.L(x,Q,B)， 后 面 我 们 可 以 看 到 它 的 应 用 。 

总 结 一 下 ， 最 优化 问题 其 实 很 简单 ， 首 先 需 要 一 个 模型 : 目标 函数 和 
约束 函数 (函数 中 的 变量 通常 就 是 特征 ， 下 一 章 会 解释 )。 不 同 的 问题 会 
对 应 不 同 的 模型 ， 需 要 自己 设计 。 设 计 的 时 候 一 定 要 考虑 目标 函数 是 否 是 
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凸 函数 ， 是 否 可 微分 《如果 不 是 的 话 ， 给 求解 参数 会 带 来 困难 )。 然 后 再 
把 该 模型 的 参数 求解 出 来 即 可 。 





2.4 问题 与 思 

. 模型 为 什么 会 过 拟 合 以 及 如 何 解决 ? 
. L1 正则 和 L2 正则 的 区 别 是 什么 ? 
. 什么 是 偏差 和 方差 ? 

. 梯度 下 降 法 还 能 如 何 优化 ? 
.什么 是 凸 函数 ? 

.如 何 解决 训练 样本 不 平衡 问题 ? 


pa 
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让 机 规 可 以 像 人 一 样 学 习 





在 讲 机 器 学 习 (Machine Learning) 之 前 ， 我 们 先 要 理解 3 个 概念 : 
十 入 活水 、 特 征 和 模型 。 它 们 就 是 机 器 学 习 的 核心 ， 模 型 就 是 
第 2 章 讲 解 过 的 最 优化 问题 。 











3.1 何谓 机 器 学 习 

我 们 首先 看 看 人 类 大 致 是 如 何 学 习 的 。 

\ 明 《万 能 主角 出 场 ) 在 校园 里 看 到 两 排 东 西 (一 排 如 图 3.1 所 示 ， 
一 排 如 图 3.2 所 示 )， 但 他 不 认识 它们 是 什么 ， 于 是 他 就 去 问 老 师 。 老 师 营 
了 一 眼 就 说 : 左边 的 是 汽车 ， 右 边 的 是 摩托 车 。 

小 明和 仔细 观察 了 下 ， 左 边 这 个 叫 汽车 的 比较 大 ， 而 且 有 4 个 轮子 ; A 
边 叫 摩托 车 的 比较 小 ， 而 且 只 有 两 个 轮子 。 于 是 小 明 的 大 脑 中 就 形成 了 这 
么 一 个 概念 〈 模 型 一 )。 

让 (大 ， 而 且 有 四 个 轮子 ) then 它 是 汽车 
让 (小 ， 而 且 有 两 个 轮子 ) 
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太 好 了 ! 小 明 学 会 了 如 何 区 分 汽车 和 摩托 车 ， 然 后 高 高 兴 兴 地 回 家 
了 ， 但 是 在 路 上 ， 他 见 到 了 如 图 3.3 所 示 的 东西 ， 根 据 他 之 前 学 到 的 知识 ， 











它 应 该 就 是 摩托 车 ， 于 是 他 就 说 :“ 








“这 是 个 摩托 车 .” 路 人 甲 听 到 了 ， 说 : 


“小 朋友 ， 这 不 是 摩托 车 ， 这 是 自行 车 。” 























小 明 很 泪 衫 ， 但 是 他 没有 放弃 。 





























3:3 


他 回 家 仔细 想 了 想 : 如 果 我 有 更 多 可 
参考 的 汽车 和 摩托 车 的 样 例 ， 然 后 提取 出 它们 更 多 的 特点 ， 那 么 我 一 定 能 
区 分 得 很 好 。 没 错 ! 于 是 小 明 总 结 了 更 多 的 不 同 点 ， 最 后 他 大 脑 中 就 形成 
了 男 一 个 概念 (模型 二 )。 





3.1 何谓 机 器 学 习 


大 ， 
有 四 个 轮子 ， 
轮子 大 小 一 样 ， 
| 四 个 门 ， POEP 
if 轮胎 较 粗 ， then 它 是 汽车 
座位 大 ， 
零 部 件 个 数 > N， 














小 ， 
有 两 个 轮子 ， 
TAIP, 
没有 门 ， 、 
if hen 它 是 
1 轮胎 较 细 ， then 已 是 摩托 车 
座位 小 ， 
零 部 件 个 数 <M， 























小 明 想 通 了 以 后 ， 觉 得 这 下 他 会 区 分 汽车 和 摩托 车 了 吧 ! 结果 有 一 天 
他 见 到 了 如 图 3.4 所 示 的 东西 。 这 货 前 后 轮胎 大 小 不 一 样 ? 前 面 还 有 个 药 
FAA? 不 满足 摩托 车 条 件 啊 ? 小 明 迷 茫 了 ! 























213.4 
Fre) re ee, EE, AK ETT A HE OR R Hl A A AK 
J, AAP EH AA ICN GHA ST aR ET), Ra RT 


较 好 的 区 分 方法 吧 〔 模 型 三 )。 
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大 5 
.| 有 至 少 四 个 轮子 ， ETA 
if 使 用 汽油 ， then 它 是 汽车 
其 他 不 重要 

















小 ， 
ip] RATT, 
使 用 汽油 ， 
其 他 不 重要 
小 明 想 了 想 ， 这 个 方法 比 他 前 两 个 方法 都 好 (当然 还 不 是 最 好 的 )， 
以 后 就 这 样 区 分 汽车 和 摩托 车 了 。 小 明 学 会 了 如 何 区 分 汽车 和 摩托 车 。 
前 面 说 过 一 句 话 “ 科 学 抽象 于 生活 ， 科 学 服务 于 生活 ”， 所 以 ， 机 器 
学 习 的 过 程 其 实 就 是 模拟 人 学 习 的 过 程 〈 当 然 ， 人 比 机 器 更 智能 ， 机 器 智 
能 还 远 达 不 到 人 的 程度 )。 从 这 个 例子 中 可 以 看 出 ,“ 小 ”“ 有 两 个 轮子 ”“ 使 
用 汽油 ”等 就 叫 特征 ， 那 个 if、then 就 叫 模 型 。 小 明 的 模型 很 简单 ， 各 个 
特征 都 满足 才 可 以 。 图 3.1 和 图 3.2 就 是 训练 样本 (或 叫 训练 数据 ， 图 3.2 
下 方 的 自行 车 可 以 理解 为 一 个 噪声 数据 。 一 般 来 说 ， 难 免 会 有 噪声 数据 )， 
小 明 的 模型 一 很 简单 ， 既 没有 把 训练 样本 分 得 很 好 ， 也 没有 把 新 的 测试 样 
本 分 得 很 好 ， 这 就 是 从 拟 合 现象 ， 模 型 二 很 复杂 ， 虽 然 把 训练 样本 区 分 得 
很 好 ， 但 是 对 新 的 测试 样本 (图 3.4) 不 能 很 好 地 区 分 ， 这 就 是 过 拟 合 现象 ， 
模型 三 是 较 理 想 的 一 个 模型 。 
这 就 是 机 器 学 习 ， 它 的 核心 就 是 特征 、 模 型 和 训练 样本 《标注 数据 或 
未 标注 数据 )。 线 下 训练 模型 的 时 候 ， 首 先 要 对 训练 样本 抽取 特征 ， 然 后 
训练 出 一 个 机 器 学 习 模 型 〈 模 型 的 结构 和 参数 ) 来 ， 线 上 预测 的 时 候 也 是 
提取 特征 ， 然 后 用 训练 好 的 模型 预测 输出 值 ， 如 图 3.5 所 示 。 前 面 说 了 ， 
训练 样本 趋 于 无 穷 多 时 ， 模 型 训练 得 虽 好 ， 但 是 现实 中 拿 到 更 多 的 训练 样 
本 代价 太 大 ， 再 加 上 特征 表示 和 模型 本 身 都 不 会 是 最 优 的， 所 以 机 器 学 习 
一 般 得 到 的 都 是 近似 解 ， 就 像 小 明 利 用 模型 三 也 会 有 区 分 不 出 来 摩托 车 一 


then 它 是 摩托 车 





























































































































































































































3.1 何谓 机 器 学 习 





样 ， 也 就 是 说 ， 机 器 学 习 只 能 解决 大 部 分 情况 ， 而 总 会 有 些 个 例 解决 不 了 。 














线 下 训练 || ， | 特征 oer 
[ose US Saiki 


cae | 
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可 以 看 出 ， 不 同 的 机 器 学 习 任务 需要 不 同 的 特征 和 模型 ， 有 的 问题 模 
型 是 可 以 通用 的 (比如 分 类 问题 )， 但 是 特征 却 不 能 通用 ， 需 要 根据 不 同 
的 问题 来 选取 。 如 果 特 征 也 是 由 机 器 学 习 出 来 的 那 该 有 多 好 ， 所 以 深度 学 
习 的 一 个 目标 就 是 能 自动 学 习 出 特征 来 (针对 某 些 单一 任务 )， 而 不 用 再 
专门 提取 特征 。 我 们 后 面 会 讲 到 深度 学 习 。 

那么 怎么 设计 特征 呢 ， 在 这 儿 就 不 得 不 简单 介绍 下 特征 工程 ， 刚 才 说 
了 机 器 学 习 中 特征 是 核心 之 一 ， 所 以 特征 工程 就 很 重要 了 。 可 惜 的 是 ， 这 
并 没有 一 个 统一 的 标准 或 者 规范 ， 而 是 与 完成 的 任务 有 很 大 关系 。 特 征 工 
程 大 致 有 这 么 几 个 步骤: 

C1) 特征 选取 。 选 取 哪 些 信息 作为 特征 ? 一 般 都 是 选取 最 有 用 、 最 能 
区 分 样本 的 特征 ， 并 不 是 特征 越 多 越 好 ， 特 征 过 多 会 导致 稀疏 性 更 严重 。 

(2) 特征 离散 化 。 离 散 化 的 目的 是 为 了 特征 在 区 间 上 有 更 好 的 区 分 性 ， 
比如 ， 年 龄 如 果 表 示 成 一 个 维度 的 话 ，20 岁 的 人 和 30 岁 的 人 就 会 相差 很 
大 (公式 中 w。x)， 事 实 并 不 是 这 样 ，20 岁 男人 和 30 岁 男 人 的 兴趣 差异 
不 应 该 这 么 大 ， 所 以 就 要 对 年 龄 这 个 特征 离散 化 ， 比 如 把 年 龄 段 按 1 岁 为 
单位 映射 成 一 个 One-hot 向 量 。 

(3) 特征 交叉 。 一 维特 征 有 时 候 会 很 奇怪 ， 比 如 性 别 ， 它 会 使 得 同一 
性 别 的 人 其 他 属性 都 一 样 ， 但 事实 上 男性 对 化 妆 品 关注 度 并 没有 女性 大 ， 
所 以 性 别 和 商品 组 合 起 来 更 有 意义 。 
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(4) 特征 修正 。 这 个 更 多 是 为 了 平滑 ， 比 如 一 个 广告 展示 了 100 次 而 
点 击 了 2 次 和 展示 了 10000 次 而 点 击 了 200 次 ，CTR 都 是 2%， 但 是 背后 


的 意义 却 不 同 ， 不 做 平滑 甬 
特征 ， 还 可 以 引入 机 器 特 生 


Wr 
to 


判 
































生成 式 模 型 〈 它 的 概率 图 
验 概率 p(y | x)» 
和 网 络 、LDA 都 是 生成 模型 ， 


然后 根据 贝 叶 斯 法 则 求 出 后 
HMM, 贝 叶 其 














别 式 模型 〈 它 的 概率 
直接 进行 预测 ， 例 如 ， 逻 辑 回归 
型 ， 所 以 判别 式 模型 求解 的 是 








条 











无 法 区 分 出 来 。 当 然 ， 这 些 都 是 人 工 提取 出 来 的 

E《 比 如 后 面 要 讲 的 GBDT 和 深度 学 习 
当 训 练 出 模型 后 ， 对 一 个 输入 ， 提 取 同 样 的 特征 ， 

行 预 测 ， 而 这 个 模型 y= fx) 一 般 就 是 条 件 概 率 分 布 pO | x) 

督学 习 通 常 分 为 两 个 模型 :生成 式 模 型 和 判别 式 模 型 。 

图 是 无 向 图 ) 是 求解 条 件 概 率 的 po |x)， 然 后 


HE) 
然后 使 用 模型 来 i 
































、SVM、 神 经 网 络 、CRF 都 是 判别 式 模 
概率 。 


rH 











G 





向 图 〉 首 先 求解 两 个 概率 p(x |y) M py) 























KE 





再 进行 预测 。 例 如 ， 朴 素 贝 叶 斯 、 
又 因为 p(x,y)= p(x| y)- p) 

















所 以 生成 式 模型 求解 的 是 联合 概率 。 





举例 来 说 ， 假 如 观察 到 一 只 
思路 ， 我 们 首先 
， 通 过 过 去 观察 至 


判别 式 模型 的 ， 


集 。 然 后 


























狮子 ， 要 判断 是 美洲 狮 还 是 非洲 狮 ? 按照 
需 定 的 资料 ， 机 器 学 习 上 称 为 训练 


TE 
A 




















| 的 狮子 的 特征 可 以 得 到 一 个 预测 函数 ， 之 后 把 





我 们 当前 观察 的 狮子 的 一 些 特征 提取 出 来 ， 输 入 到 预测 函数 中 ， 得 到 一 个 





值 ， 
特征 中 学 习 
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sa 














就 知道 它 是 什么 狮子 了 。 而 对 于 生成 式 模型 ， 我 们 先 从 所 


























iil, 


观察 的 狮子 的 特征 ， 
这 就 是 生成 式 模 型 。 可 以 看 出 
了 ， 并 不 需要 知道 每 一 类 到 底 是 什么 分 布 ， 这 样 它 
确定 ， 而 生成 式 模型 要 得 到 每 类 的 具体 分 布 ， 然 后 根据 每 个 分 布 去 判断 类 
它 的 训练 集 自然 需要 无 限 样 本 ， 学 习 复 杂 度 也 高 。 造 成 两 个 模型 样本 





LEIP 











空间 不 同 的 原 





这 部 分 已 经 知 





KEJ 














计算 条 件 概 率 的 时 














美洲 狮 的 











到 美洲 狮 的 模型 ， 同 样 得 到 非洲 狮 的 模型 ， 然 后 提取 当前 
两 个 模型 中 ， 看 哪个 概率 更 大 ， 就 是 什么 狮子 ， 








， 判 别 式 模 型 只 需要 关注 类 的 边界 就 可 以 
了 限 样本 就 可 以 








ae 
只 需要 




















候 我 们 已 经 “知道 ”了 一 部 分 信息 ， 





道 的 信息 缩小 了 可 能 取 值 的 范围 ， 即 缩小 了 它 的 样本 空间 。 




















3.2 ”逻辑 回归 /因子 分 解 机 








由 生成 式 模型 可 以 得 到 判 式 别 模型 ， 但 由 判别 式 模型 得 不 到 生成 式 模型 。 
接 下 来 就 讲解 具体 的 机 器 学 习 算法 。 在 这 儿 要 提醒 一 下 ， 几 乎 每 个 机 





器 学 习 模 型 都 有 假设 ， 所 以 具体 的 应 用 场景 或 者 数据 应 该 尽 可 能 接近 所 使 











用 机 器 学 习 模 型 的 假设 。 





























3.2 逻辑 回归 /因子 分 解 机 


现在 我 有 个 分 类 任务 要 做 : 判断 一 封 邮件 是 否 为 垃圾 邮件 。 什 么 是 垃 
圾 邮件 呢 ? 总 得 有 个 定义 吧 ， 那 我 们 姑且 先 把 这 类 邮件 归 为 垃圾 邮件 : 包 
含有 广告 推广 、 有 诈骗 、 有 非法 活动 等 的 邮件 。 




































































Tr 











我 们 先 选 用 2.3 节 中 的 线性 回归 模型 来 完成 这 个 任务 ， 即 7 = f(x) =O", 
x 为 特征 向 量 〈 例 如 ，2 表示 出 现 广告 词 的 次 数 ， 表示 是 否 含有 电话 号 














码 ，x 表示 是 否 含有 网 址 链接 ， 等 等 ); y 为 分 类 结果 ，?= 1 表示 为 垃圾 邮 
件 ，y=0 表示 为 非 垃圾 邮件 。 那 么 对 于 这 个 二 分 类 问题 就 可 以 设置 个 阔 值 


来 判断 : 
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JL HO*x 20.5 
0, HO0'x <0.5 











但 是 ， 随 着 特征 向 量 x 的 变化 ， 线 性 回归 的 输出 y 的 取 值 范围 可 以 是 任 























何 数值 ， 如 果 要 使 我 们 上 面 设 定 阔 值 的 分 类 方法 有 效 ， 必 须 将 线性 回归 的 输 

















出 值 映射 到 一 个 固定 的 范围 ， 这 就 需要 请 出 逻辑 回归 (Logistic Regression ) 。 
































多 和 辑 回归 在 线性 回归 的 输出 ”上 引入 了 一 个 函数 g(z) : 








Z)= 
gtz) 1+e“ 





eA CBA sigmoid 函数 ) 的 作用 就 是 可 以 把 某 个 值 映 射 到 〈0，1) 


区 间 ， 它 的 曲线 图 大 致 如 


























图 3.6 所 示 。 


这 样 ， 整 个 逻辑 回归 公式 就 为 








hy (x) = g(0"x) = 


好 了 ， 现 在 特征 向 量 





T 
jpe” 


AT, BHA() 也 有 了 ， 训 练 数据 也 很 容易 得 
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到 ， 请 人 标注 一 批 数据 即 可 ， 那 剩 下 的 问题 就 是 如 何 求解 模型 的 参数 0。 























如 果 我 们 选用 和 线 ; 
则 化 ) ， 即 


< 


生 回 归 模 型 一 样 的 平方 损失 作为 目标 函数 〈 没 有 正 




















M 
L(0)==— Uo 2!) -y CM 为 样本 数 ) 
jal 



































那么 就 会 有 个 问题 ， 由 于 A(x) 是 sigmoid RAL, SECA eee E 
PRB CONAN 3.7 所 示 )， 那 么 就 没有 最 优 解 ， 所 以 我 们 就 需要 做 些 工作 使 得 
目标 函数 是 凸 函数 。 











3.7 














对 于 二 分 类 问题 ， 假 设 
Py 
那么 


( 0 D 1 AC) 
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民 据 这 两 个 概率 ， 可 以 写 出 概率 分 布 〈 二 项 分 布 ) 为 





P(Y|x,9) = (hg (x))” = hg (x)? 
这 时 就 可 以 写 出 似 然 函数 了 
L(0) = p(YIX,0) 


M : . 
=| [ro 1x’,0) 

j=l 

M 


-Ik ED I= hy(x!))” 


j= 
然后 就 可 以 使 用 最 大 似 然 估 计 来 求解 了 《也 可 以 取 负 数 求 最 小 )。 
(1) 似 然 函数 取 log (为 和 前 面 统一 ， 乘 了 一 个 1/M) 









































L(0) = log£(0) = = ylog(hg a) +0- y log —hg(x’)) 
(2) Xf LO) RS 


CEER i a-y) — (dxi) = 
ao MA gk O gO) a8 = 











IS) egim rio oe 
MA gx) 1- g(0'x’) 30, 


M 
TE l-80- -yei = 
j=l 


O” — Ng x’ x 
MS 


























这 里 用 了 一 个 推导 公式 : g"(z)= g(z)(1 -8(2))。 
(3) 最 后 的 迭代 公式 是 (最 大 化 ， 梯 度 上 升 法 ) 





14, oo, 
0, =0, +a — X (ho Da 
i i M (y g(x DX; 








看 到 了 吗 ， 它 的 迭代 公式 形式 是 不 和 前 面 线性 回归 模型 的 梯度 下 降 法 
的 和 迭代 公式 一 样 呢 《除了 ha) 不同)? 所 以 逻辑 回归 的 求解 速度 也 是 很 快 
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的 。 这 样 就 完成 了 这 个 垃圾 邮件 判断 的 任务 了 。 

上 面 的 求解 假设 是 二 类 问题 ， 如 果 是 多 类 问题 怎么 办 呢 ? 假设 有 kk 个 
类 别 ， 即 y/efl,2,.…, 习 ， 也 就 是 我 们 希望 输出 每 个 类 别 下 的 概率 ， 一 般 多 分 
类 使 用 的 函数 是 softmax 函数 ， 即 























-6.7x 
P( y=e| x,0,) = hy, (x) = (0,7) = — 
ee 
写 出 似 然 函数 
£(0) = pY | X,9) 
1 M ja 
= LI feo’ =x ™ 
j=l 1=1 
对 该 似 然 函数 取 log 


M k 
L(0)=log£(0) = D3 =I}log p(y’ =1| x’,4,) 


j=l l= 


其 中 [*] os * 满足 则 为 1， 否则 为 0。 











然后 对 LORIS 
og. : 
2 pA p is * sp eremey 
06, ; Op 06, x 06; 


1 > i | , , 
=— > {([y’ =- pO” =1| x’,@))xx/} 
ue ' 


M 
= YL == hy x) 


j=l 











TOPE at AY DA EF BB BE ERREARI AET, SCE METAL AZ Softmax 回 
归 的 特例 ， 即 上 = 2 的 情况 。 

逻辑 回归 的 特征 之 间 是 独立 的 ， 但 是 在 很 多 任务 中 ， 特 征 之 间 是 有 关 
联 的 ， 比 如 广告 中 ,“ 女 性 ”用 户 和 “化 妆 品 ”商品 有 关联 ， 所 以 需要 模 
型 能 表征 这 种 特性 
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n n n 
y(x) = w + > wx + > > Wi XX 
i=l 


i=l j=i+l 

这 个 模型 的 组 合 特征 参数 有 mxz+l)/2 个 ， 任 意 两 个 参数 都 是 独立 的 ， 
然而 这 个 模型 比较 难 训练 ， 因 为 样本 比较 稀疏 的 情况 下 ， 同 时 满足 和 
x; 非 零 的 情况 很 少 ， 导 致 wj 训练 得 不 准确 。 因 子 分 解 机 《Factorization 
Machines) 根据 甜 阵 分 解 的 思路 提出 了 一 种 解决 方案 ， 所 有 参数 w, 可 以 组 
成 一 个 对 称 矩 阵 WW, WH VV, 严 的 第 7 列 便 是 第 7 维特 征 的 隐 向 量 ， 也 就 
是 说 wj= <y,v>， 因 此 ，FM 的 模型 为 : 


n n n 
y(x) = Wo +) wx, +) » <V V; XX 
i=l 


i=l j=i+l 




































































v ret ERE GEA Mele) at, EKEN k kna), the ii v ERE 
征 x; 的 一 个 向 量 表示 。 该 模型 的 组 合 特 征 参 数 减 少 为 tn 个， 而且 之 间 的 
参数 不 再 相互 独立 ， 所 有 包含 x 的 非 零 组 合 特征 都 可 以 用 来 学 习 隐 向 量 
ww， 很 大 程度 避免 了 稀 玻 问题 。 模 型 的 梯度 如 下 《推导 过 程 可 以 参考 论文 


«Factorization Machines). 
































1, 0 = w 
0 Xs 0=w; 
=A y(x)= 
00 n 5 
名 O=Vj,7 
j=l 




















其 中 ，v 是 隐 疝 量 的 第 /个 元 素 。 可 以 看 出 ，FM 也 是 可 以 在 线性 
时 间 训 练 和 预测 的 高 效 模型 。 

那么 逻辑 回归 和 FM 还 有 什么 用 呢 ? 目前 谷歌 、 百 度 等 各 大 公司 都 使 
用 这 些 模型 来 对 广告 点 击 率 (Click-through Rate) 进行 预 估 。 

搜索 广告 相 比 传统 广告 效果 更 好 ， 就 是 因为 它 利 用 了 用 户主 动 的 搜索 
意图 。 任 何 一 种 广告 的 目的 一 是 为 了 赚钱 ， 二 是 为 了 尽 可 能 多 地 赚钱 。 简 
单 来 说 ， 就 是 将 流量 X 每 干 次 展示 收益 (CPM) 最 大 化 ， 而 每 千 次 展示 
收益 = 展示 之 后 被 点 击 的 概率 CTR 就 
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自然 会 提高 收入 ， 也 就 是 把 最 可 能 被 用 户 点 击 的 广告 展示 出 来 。 所 以 要 事 
先 预 估 ， 把 更 可 能 被 点 击 的 广告 尽 可 能 地 展示 出 来 ， 预 估 点 击 率 (pCTR) 
就 可 以 使 用 这 些 模型 来 计算 ， 在 介绍 搜索 广告 的 时 候 ， 我 们 还 会 提 到 这 

















ayy o 


线 上 系统 还 有 一 个 问题 就 是 在 线 学 习 (online learning), th wie 
时 对 新 来 的 样本 进行 模型 参数 的 更 新 。 前 面 讲 的 SGD 就 是 一 种 方法 ， 但 
是 它 最 大 的 问题 是 很 难产 生 真正 稀 玻 的 解 ， 然 而 在 大 规模 数据 集 大 规 模 
特征 的 情况 下 ， 稀 玖 性 能 有 效 地 降低 内 存 和 复杂 上 度 ， 所 以 就 提出 了 一 些 
优化 的 方法 ， 比 如 Google 公司 提出 来 的 FTRL (Follow-The- Regularized- 
Leader) 算法 ， 在 这 儿 就 先 不 展开 了 ， 读 者 可 以 细 读 论文 《Adaptive Bound 


Optimization for Online Convex Optimization》《Follow-the-Regularized-Leader 






























































and Mirror Descent:Equivalence Theorems and L1 Regularization) (Ad Click 


Prediction:a View from The Trenches). 


3.3 RARR E/R 


EARRA! (Maximum Entropy Model) 是 我 个 人 比较 喜欢 的 模型 之 一 ， 
它 背 后 的 原理 其 实 非常 简单 : 当 我 们 对 一 个 随机 变量 的 分 布 预测 时 ， 对 已 
知 条 件 一 定 要 满足 、 对 未 知 数据 一 无 所 知 时 ， 不 要 做 任何 主观 假设 ， 要 同 
等 对 待 。 这 时 ， 它 们 的 概率 分 布 最 均匀 ， 风 险 就 越 小 。 概 率 分 布 最 均匀 就 
Rae AK, Fr DEY Se KAY 

如 果 不 好 理解 的 话 ， 我 们 就 举 个 例子 来 说 。 现 在 有 一 场 很 激烈 的 篮球 
比赛 ， 比 分 是 81:82， 而 且 比 赛 时 间 只 剩 最 后 3 秒 了 ， 球 权 在 落后 的 一 方 ， 
庆幸 的 是 ， 你 就 是 领先 这 一 队 的 教练 ， 现 在 你 的 任务 就 是 暂停 之 后 防守 住 
对 方 的 最 后 一 次 进攻 ， 不 让 他 投 进 ， 否 则 就 输 球 了 。 已 知 对 方 球 队 的 5 个 
球员 (A、B、C、D、E) 中 ， 
非常 大 ; E 是 个 防守 悍 将 ， 进 攻 能 力 很 差 ， 所 以 他 最 后 一 投 的 概率 非常 小 ， 
他 的 主要 目的 应 该 是 掩护 使 得 A 能 顺利 投球 ， 其 他 3 个 都 是 能 力 相 当 的 普 





























































































































3.3 MARA MA 




















通 球员 。 那 么 你 就 有 很 多 战术 来 完成 这 次 防守 ， 其 中 包括 下 面 两 种 方案 : 
(1) 让 你 们 队 中 防守 最 好 的 球员 去 防守 A， 然 后 让 本 来 防守 EE 的 球员 主要 去 
协 防 A〈 这 样 卫 几乎 没 人 防守 了 )， 其 他 3 个 人 一 对 一 防守 对 方 ; (2) 同样 ， 
让 防守 最 好 的 球员 去 防守 A， 防 守卫 的 球员 去 协 防 A， 剩 下 3 个 人 (B、C、 
D) 的 防守 同上 面 方案 不 同 让 一 个 球员 防守 B， 然 后 让 防守 C 的 球员 
花 很 大 精力 也 去 协 防 B， 对 了 D 则 是 一 对 一 防守 。 那 么 你 觉得 上 面 两 个 方案 
哪个 好 呢 ? 很 显然 是 方案 (1)， 因 为 方案 2) 中 要 对 球员 C 减轻 防守 ， 
而 球员 C 和 球员 B、D 的 能 力 相 当 啊 。 如 果 不 是 A 最 后 一 投 的 话 ，C 在 轻 
防守 下 命中 率 就 会 增加 ， 那 么 你 输 球 的 概率 就 自然 增加 了 。 所 以 对 完全 未 
知 的 情况 不 要 做 任何 主观 假设 ， 而 要 平等 对 待 ， 风 险 才能 最 小 。 

好 ， 那 我 们 开始 看 看 最 大 入 模型 是 怎么 回 事 ? 首先 我 们 需要 介绍 几 个 
概念 ， 假 设 样本 集 为 D= {X, 站 ,对 为 输入 ， 了 为 输出 ， 比 如 对 于 文本 分 类 
问题 ,就 为 输入 文本 ,了 就 是 类 别 号 ， 对 于 词性 标注 问题 ,就 为 词 ，Y 
就 是 词性 。 可 以 看 出 ， 在 不 同 的 问题 中 ， 输 入 和 输出 了 比较 多 样 化， 为 
了 模型 表示 方便 ， 我 们 需要 将 输入 对 和 输出 了 表示 为 一 些 特征 。 对 于 某 个 
(xoyo)， 定 义 特征 函数 









































































































































Fy = yo Ax = x 

,其 他 

那么 特征 函数 的 样本 期 望 就 可 以 表示 为 
B(f)= > Py) fy) 


X, y 


而 特征 函数 的 模型 期 望 表示 为 
P= > PEDS Cy) = > Pw Py IO) 


sy sy 
样本 期 望 和 模型 期 望 到 底 是 什么 东西 呢 ? 还 记得 之 前 提 到 的 经 验 风险 
和 期 望 风 险 的 区 别 吗 ?样本 期 望 和 模型 期 望 的 区 别 也 一 样 ， 样 本 期 望 是 从 
样本 数据 中 计算 的 ， 模 型 期 望 是 从 我 们 希望 要 求解 的 最 优 模 型 中 计算 的 ， 
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而 且 ， 模 型 期 望 最 终 简 化 为 条 件 概率 po |x)， 它 就 是 我 们 要 求解 的 模型 ， 
因为 p(x) 是 从 样本 中 统计 来 的 。 根 据 最 大 似 然 法 ， 数 一 数 x 出现 的 次 数 除 
以 总 次 数 就 得 到 了 ， 同 样 样本 期 望 中 的 p(x,y) 也 是 数 一 数 (xy) 同时 出 现 
的 次 数 除 以 总 次 数 就 可 以 得 到 了 。 

机 器 学 习 就 是 从 样本 中 学 习 到 真实 模型 ， 也 就 是 说 模型 期 望 应 该 尽 
可 能 地 等 于 从 数据 中 观察 到 的 样本 期 望 ， 这 样 就 出 现 了 一 个 约束 条 件 : 
P(f)=p(f)。 MAA te BE tAve? HDT, BER CRT He Ke 


那么 目标 函数 就 是 ;argmaxpH(D)= -> p(x) p(y |x)log p(y |x) 


x,y 


MARKERA E PO | x) 是 变量 ) 















































argmax „H (p)=-9_ P(x) p(y’| x) log p(y |x) 


x,y 


Sit: 


vx > py |x)=1 
J 
可 以 把 最 大 化 转换 为 最 小 化 问题 ， 即 
argmin, - H(p) = > p(x) p(y| x)log p(y | x) 
xy 


VA E= Lek) PENS = PO) PO DL Ey) 
x,y x,y 
vx > p(y|x) =1 
F 


这 样 模型 构建 好 了 ， 那 剩 下 的 就 是 如 何 求解 模型 了 。 这 是 个 等 式 约束 
优化 ， 就 可 以 用 拉 格 朗 日 乘 子 法 来 求解 ， 写 出 拉 格 朗 日 函数 


s.t. 














Lpa) =- X a| Spc re- ZPO) 


i=1 


tal S90 9-1 





3.3 mA RAS FMA 











遗憾 的 是 ， 直 接 对 参数 求 导 使 它们 等 于 零 ， 没 法 求解 出 各 个 参数 ， 因 
为 参数 互相 耦合 到 一 起 了 ， 所 以 就 要 尝试 其 他 方法 求解 了 。 
还 记得 前 面 讲 的 对 偶 原 理 吗 ? 原 问题 是 















































minpmaxwL(P,C) 
对 侦 问 题 是 


max, min ,,L(p,@) 





由 于 Lipa) 是 是 函数 ， 所 以 原始 问题 和 对 偶 问 题 是 等 价 的 。 这 样 我 们 
只 需要 求解 对 偶 问题 ， 首 先 求解 min,L(p,0)。 





0 
对 p 求 导 ， 求解 3 a50, 即 


BHP -EPOD +D- 3) D aA) Eo 
X,Y 


xy islek 





=$ Plog py IW)+1— > æf y)+a] 
x,y 


i=l, *-,k 


* Si¥)-a%-1 ¡Zii O 
p CEO 光 a = Z (xe) 


又 Yx》 p(y |x)=1 那么 
y 


YP V1) EZA -1 
4 x 


1 
> e&f (x,y) 
F 


得 到 Z(x) = 




















BAF, BRIO PERO A 

p(y |x) = Zae 

Z(x) 5 DC 
x 


这 样 min,L(p,a) 的 最 优 解 “ 就 求解 出 来 了 ， 剩 下 就 是 求 
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max, min ,L(p, œ) = max, p Olx) 

它 是 a 的 函数 ， 只 要 a REER, RARE po |) 也 就 求解 出 来 
了 ， 但 是 很 显然 ，a 的 解析 解 无 法 直接 求 出 《有 指数 函数 ) ， 那 么 就 需要 数 
值 方法 来 求解 了 ， 例 如 GIS、IS、LBFGS 等 方法 。 

在 这 简单 介绍 一 下 IIS 求解 的 流程 (里面 有 很 多 证 明 ， 请 参考 论文 《The 
Improved Iterative Scaling Algorithm: A Gentle Introduction》) ， 我 们 现在 已 
经 知道 了 条 件 概 率 po |x) 的 表达 式 了， 那么 就 可 以 用 最 大 似 然 估 计 (最 大 
炉 和 最 大 似 然 估计 训练 结果 一 致 ， 只 是 考虑 的 方式 不 同 : KG ae DAE AS 
数据 的 炉 值 最 大 化 为 目标 ， 最 大 似 然 估计 是 以 样本 数据 的 概率 值 最 大 化 作为 
目标 ， 既 然 训 练 结果 一 致 ， 那 就 找 个 简单 的 求解 )， 写 出 它 的 log 似 然 函数 

L'(@) =》 p(x, y)log p(y| x) 


xy 
PY |x) 我 们 已 经 求解 出 来 了 ， 是 a 的 函数 ， 那 么 L'(o) 自 然 也 是 a 的 函 
数 了 ， 但 是 如 果 用 L'(o) 对 w 求 导 的 话 ， 也 是 无 法 解 出 a 的 ， 那 也 就 需要 迭 
代 法 : g =g+5。 满 足 L'((g+6) 宇 L(ga)， 也 就 是 每 步 迭 代 都 要 向 最 优 解 移 
动 ， 要 想 移 动 得 快 ， 也 就 是 要 使 (w+5)-L(o) 尽 可 能 大 ， 也 就 是 最 大 化 
L(w+9)-L(o) 即 可 (〈 它 是 5 的 函数 )。 如 果 L' (x+o)-L (ao) 无 法 表示 出 来 ， 



















































































































































































MRA FB BRL'(a+6)-L'(a) > (6), PAIR REAL RE IER OO) BK 
值 了 。 
IIS 的 算法 流程 如 下 。 





GI Bey Oa es 
(ORforni OK: 


21 EE, PEDE- POL poA EA en 


I o) 


flak 


22 SX o(4)=0, Hid. GS Cy) E 


2.3 a=a,t6, 





3.3 MARA FMA 


























BE, eK GRAS Ase Ta te PZ — BARE REAL (CRF) 
FEAT AR DG KARE RTE CK RAE AR BER A 





















































pO |x) =Z(x)exp Laf ») 


1 
E 


而 且 ， 它 的 概率 图 如 图 3.8 Aras. 


y 


Z(x)= 























KA 
213.8 
而 CRE 的 条 件 概率 分 布 是 
romrzaol Yi > fan) 
i t=1;,N 


Z(x)= 


1 


而 且 ， 它 的 概率 图 如 图 3.9 Aras. 








va Yı Viv 
Xr x; Xe 
213.9 














从 概率 图 大 致 可 以 看 出 区 别 了 ，CRF 利用 了 上 下 文 信息 ， 而 且 最 后 
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的 条 件 概 率 也 是 全 局 最 优 (无 标记 偏 置 问题 )， 所 以 它 对 标注 问题 (分 词 、 
词性 标注 、 实 体 识别 等 ) 效果 更 好 一 点 。 至 于 CRE 的 细节 大 家 可 以 参考 
一 下 论文 《Conditional Random Fields: An Introduction》， 它 的 参数 求解 过 
REAM Be KI EKME HRK, Aa EAA IS、LBFGS 等 算法 求解 
参数 。《Discriminative Training Methods For Hidden Markov Models: Theory 















































And Experiments With Perceptron Algorithms》 这 篇 文章 提出 了 一 种 更 简单 
的 训练 方法 。 





3.4 ”主题 模型 

主题 模型 (Topic Model) 是 自然 语言 处 理 NLP) 中 非常 有 影响 力 的 
模型 之 一 ， 因 为 它 的 初衷 就 是 解决 NLP 中 的 语义 问题 ， 尽 管 这 距离 真正 意 
义 上 的 语义 有 很 大 距离 。 那 么 什么 是 “主题 ” 呢 ? 一 段 话 的 主题 就 是 我 们 






























































小 学 语文 课 上 学 过 的 中 心思 想 ， 但 是 这 个 中 心思 想 太 宽泛 了 ， 计 算 机 要 怎 
么 表示 呢 ? 那 就 是 用 一 些 最 能 反映 中 心思 想 的 词 来 表示 (这 就 产生 了 一 个 














假设 : bag of words。 这 个 假设 是 指 一 个 文档 被 表示 为 一 堆 单词 的 无 序 组 合 ， 
不 考虑 语法 、 词 序 等 ， 现 在 bag of words 假设 其 实 也 是 NLP 任务 的 一 个 基 
本 假设 )， 比 如 下 面 一 段 新 闻 内 容 :“ 站 在 互联 网 整个 行业 的 角度 ， 我 认为 
微 信 是 一 个 极 具 生命 力 和 想象 空间 的 移动 产品 ， 它 的 布局 和 设计 都 有 可 能 
颠 履 移动 互联 网 的 明天 。” 我 们 可 以 看 出 ， 它 的 主题 应 该 就 是 “ 微 信 ”“ 移 
动 互联 网 ”等 。 对 于 一 篇 文档 ， 我 们 希望 能 得 到 它 的 主题 (一 些 词 )， 以 
及 这 些 词 属于 哪些 主题 的 概率 ， 这 样 我 们 就 可 以 进一步 分 析 文 档 了 。 

主题 模型 有 不 少 算法 ， 最 经 典 的 两 个 是 : PLSA (Probabilistic Latent 
Semantic Analysis) 和 LDA (Latent Dirichlet Allocation ). 

首先 来 看 一 下 PLSA 模型 。deD 表示 文档 ，we 了 表示 词语 ，z RREA 
WER. Pd) 表示 单词 在 文档 | 
定 文档 4 下 出 现 的 概率 ，P(w, | 2) 表示 单词 w 在 给 定 主题 z 下 出 现 的 概率 。 
PLSA 是 个 典型 的 生成 模型 。 根 据 图 3.10 模型 可 以 写 出 文档 中 每 个 词 的 生 
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成 概率 
P(d,,w,) = P(d,)P(w; |d;) = P(d;) >, PW; |z1)p(zi |d) 


k=l, K 


p (zid) p (wiz) 








pia) -(0) paid; booed) 
图 3.10 
由 于 词 和 词 之 间 是 互相 独立 的 ， 文 档 和 文档 间 也 是 相互 独立 的 ， 那 么 
整个 样本 集 的 分 布 为 
P(D.V)= |] Il P(d,,w, yr? 


i=1, 4, N j=1,-.M 
首先 ， 我 们 看 看 ，PLSA 模型 待 估计 的 参数 是 什么 ? wie 8 = {Pw |z), 
P(zi 14;)}， 那 么 样本 集 的 log 似 然 函数 就 为 


L(0)=1logP(D,VIO)= 》 > n(w,di)logP(d;,w,) 


Sen eee 

Hp, n(w,d) 表示 单词 w 在 文档 4 中 出 现 的 次 数 ，n(q) 表示 文档 4 中 
词 的 个 数 。 

好 ， 现 在 有 了 log 似 然 函数 ， 那 么 就 可 以 对 其 求 导 解 出 参数 了 ， 我 们 
知道 参数 0 共有 NXK+MXK) 个 ， 而 且 自 变量 是 包含 在 对 数 和 中 ， 这 就 
意味 着 这 个 方程 组 的 求解 很 困难 ， 那 就 要 考虑 其 他 方法 求解 了 ， 而 且 这 个 
问题 还 包含 隐藏 变量 ， 就 要 使 用 EM 算法 。 
EM 算法 就 是 根据 已 经 观察 到 的 变量 对 隐藏 变量 进行 学 习 的 方法 。 既 
然 没 办 法 最 大 化 L( DJ， 那么 L(O) 总 该 有 个 下 限 吧 。 我 们 优化 这 个 下 限 ， 不 
断 途 代 提 高 这 个 下 限 ， 就 可 以 得 到 近似 最 优 解 了 。 这 个 下 限 其 实 就 是 似 然 
函数 的 期 望 。 通 常 ，EM 算法 得 到 的 是 局 部 近似 解 。 

首先 对 参数 Pw, | z) 和 P(e, | d) 赋值 随机 值 。 

EM 算法 第 一 步 E-step : 求 隐 藏 变量 的 后 验 概率 
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P(w; | 24) PC |d;) 

2 pete P PG d) 
EM 算法 第 二 步 M-step : 最 大 化 似 然 函数 的 下 限 ， 解 出 新 的 参数 。 
那么 ， 现 在 的 问题 就 是 找到 LO) 的 下 限 ， 可 以 推导 出 

L@)= > 2 n(wi,di)log >, Plzi |d;)P(w; | 2) 


icl Md dd k=1;,K 


= > DY nwd) 2, PE |di,w)log(P(zi |d )PWw; 1z) =O) 


i=l, ,M = k=1,",K 
OO 就 是 下 限 ， 那 么 最 大 化 它 就 可 以 了 ， 但 是 还 有 约束 条 件 
> Poslal 


ja 


2, Pe |4)=1 


k=l; =, K 
这 时 写 出 拉 格 朗 日 函数 
H= DY > nwd) 4 PE dyw log PE 14.) PC; |24)) 


i=l; =, M LV k=l; ,天 


+ >, we 2 P(w; "i 1) 
SS Kai 


tis M kK 
然后 分 别 对 Pw, | z,) A P(e, | ad) KS GER, PE | dw) 是 已 知 的 ， 
在 E-step 已 经 计算 好 了 ) ， 然 后 联合 约束 条 件 ， 解 得 


2 yj G Pld; ¥)) 


P(z,|d;,w;) = 



























































P(w, | 24) = 
OS pron Doran ye @PCulds)) 
Depa MO APC dw) 
P(z; |d;)= MFE 
a REER. 
E X JL A i F A k Ag EM A E W i log UA HANH 








L@) ae es 0), ASA EM 算法 步骤 为 : 
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(1) 随机 初始 化 0 ; 
(2) EM 步骤 : 
while (0 0;| <0): 
E-step: 计算 后 验 概率 P(Z | X,6,); 
M-step: @,,, = argmaxg > P(Z X,0,)log P(X,Z |0)» 




















HA 
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PLSA 算法 就 求解 完了 ， 它 和 其 他 算法 的 求解 过 程 其 实 没 多 大 
区 别 ， 唯 一 的 不 同 是 多 了 隐藏 变量 ， 然 后 使 用 EM 算法 求解 。 

PLSA 求 出 了 所 有 PE | 四 和 Pw|z)， 也 就 是 文档 di; 属于 主题 z 的 
概率 和 主题 z 下 各 个 单词 w 的 概率 ， 但 是 PLSA 并 没有 考虑 参数 的 先 验 知 
识 ， 这 时 候 出 现 了 另 一 个 改进 的 算法 : LDA. LDA 对 参数 增加 了 先 验 分 布 
(所 以 理论 上 LDA 比 PLSA 不 容易 过 拟 合 ) ， 也 就 是 说 参数 也 是 一 个 分 布 ， 
这 个 分 布 的 参数 〈 参 数 的 参数 ) 叫 作 超 参数 。 

LDA 是 个 挺 复杂 的 模型 ， 我 们 来 看 一 下 它 的 大 致 思路 ， 图 3.11 就 是 
从 论文 中 截取 的 LDA 的 图 模型 。 











































































































0, |@ ~ Dirichlet (8) 
O -EH |B ~ Dirichlet ($) 
ES Zmn| 0n ~ Multinomial (5,) 


Omn | Penn ~ Multinomial (¥,,,,,) 





图 3.11 

其 中 ，w,, 是 观察 到 的 变量 (文档 m 中 第 nn 个 词 );， 其 他 都 是 参数 或 
ERREZE, d PRERA ý {gi} 表 示 主 题 和 词 之 间 的 分 布 ， 是 一 
个 MXx 开 的 矩阵 ，@ = {9} 表示 文档 和 主题 之 间 的 分 布 ， 是 一 个 KX 的 和 
阵 。M 是 文档 数 ，K 是 主题 数 ， 是 词 数 ， 是 文档 ”的 长 度 。 
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LDA 有 个 假设 : & 一 9, SDA Dirichlet 441, 9, > zn 服从 Multinomial 
Adi, B— oJ Dirichlet 分布 ，9i 一 wn 服从 Multinomial 分 布 。 我 们 
知道 Dirichlet 分 布 和 Multinomial 4} 48 2 — A S, AAA A LDA 
BRRR? 当 某 个 似 然 概率 异常 复杂 时 ， 后 验 概率 计算 会 叫 人 难 
以 理解 ， 使 用 共 斩 先 验 可 以 简化 问题 。 把 Dirichlet 分 布 和 Multinomial 分 
布 都 研究 透 了 ， 它 们 的 概率 分 布 、 期 望 等 都 是 可 以 直接 求解 出 来 的 ， 在 推 
导 最 终 参 数 时 就 可 以 直接 使 用 了 。 

假设 某 个 分 布 ( 观 察 变 量 为 X)， 要 估计 其 中 的 参数 9。 参数 0 有 个 先 
验 分 布 p(0)， 贝 叶 斯 法 则 告诉 我 们 p(6|X)x pX IpO, AAE, £ 
PO) 与 p(X|0) 有 相同 的 函数 形式 ， 那 么 后 验 概率 p(q |X) 和 它们 (p(q) 与 
P(X | O)) 也 有 相同 的 函数 形式 。 这 样 就 使 得 9 的 后 验 概率 与 先 验 概率 具有 
相同 的 表达 式 ， 只 是 参数 不 同 而 已 。 所 以 选择 与 似 然 函 数 共 轿 的 先 验 ， 得 
到 的 后 验 函 数 只 是 参数 调整 后 的 先 验 函数 。 
同样 ， 可 以 写 出 LDA 的 似 然 函 数 ， 然 后 使 用 最 大 似 然 估 计 求 解 参 数 ， 
但 是 似 然 函 数 参 数 耦 合 太 大 ， 无 法 求解 出 来 ， 而 且 包括 隐藏 变量 ， 所 以 就 
像 PLSA 一 样 ， 想 到 了 EM 算法 ， 但 是 LDA 相 比 PLSA 还 有 一 个 困难 : 后 
验 概率 无 法 求解 出 来 CEM 算法 中 E-step 要 求解 后 验 概 率 ) ， 那 么 这 时 就 又 
要 近似 计算 了 ， 即 使 用 变 分 -EM 算法 。 

变 分 推理 是 一 种 近似 计算 后 验 概率 的 方法 ， 首 先 寻 找 一 个 和 原来 不 能 
直接 求解 的 后 验 概率 等 价 或 者 近似 的 函数 0， 然后 就 通过 求解 最 优 近 似 函 
数 O 的 参数 来 近似 得 到 原 后 验 概率 的 参数 。 

变 分 -EM 算法 和 迭代 的 流程 如 下 : 










































































































































































































































































(1) 设 定 参数 的 初始 值 ; 
(2) E-step: 计算 近似 函数 
(3) M-step: 最 大 化 近似 函数 0O， 解 出 参数 。 





求解 LDA 的 参数 还 有 一 种 方法 : Gibbs Sampling 








3.4 “主题 模型 








Gibbs Sampling 算法 是 MCMC 的 一 个 特例 ， 如 果 某 个 概率 P(X) 不 易 
求 得 ， 那 么 可 以 交替 地 固定 某 一 维度 x;,， 然 后 通过 其 他 维度 x_,; (去 除 x; 的 
其 他 所 有 值 ) 的 值 来 抽样 近似 求解 ， 也 就 是 说 ，Gibbs 采样 就 是 用 条 件 分 
布 的 采样 来 蔡 代 全 概率 分 布 的 采样 。 

回 到 LDA， 使 用 Gibbs Sampling， 就 是 要 迭代 求解 : 



























































P(z = |W, 2 emn 2P) 

KAA REAR PCW, Z EA) TORS BER it SSCL A 
用 Dirichlet 分 布 和 Multinomial 分 布 推导 出 来 的 ， 这 两 个 分 布 是 已 知 的 ， 
FAAP Emn =k |W, Z nn, 配 D 自 然 可 以 求解 出 来 了 。 

当 Gibbs Sampling 收敛 后 ， 根 据 图 模型 就 可 以 求解 后 验 分 布 了 : 
PCS, | 二 ,,@) 和 P(B.|z,&,B)( 共 思 分 布 的 性 质 是 它们 就 和 先 验 分 布 一 样 ， 只 是 
参数 不 同 ， 所 以 可 以 求解 出 来 )， 然 后 使 用 它们 的 期 望 就 可 以 解 出 所 有 5 和 9 了 。 

所 以 整个 基于 Gibbs Sampling 的 LDA 算法 流程 为 : 




































































(1) 初始 化 参数 ; 
(2) 对 所 有 文档 m= 1,…,M 
对 文档 m 中 所 有 的 单词 # = 1,…,N， 
。 采样 每 个 单词 w,, 对 应 的 主题 z= 
。 对 单词 w, 的 主题 # 增 加 计数 (“文档 -主题 ”计数 ，“ 文 档 - 
主题 ”总 数 ，“ 主 题 单 词 ”计数 ，“ 主 题 单 词 ”总 数 ); 
(3) 和 迭代 步 又 : 
对 所 有 文档 m = 1,…,M 
对 文档 m 中 所 有 的 单词 # = 1,…,N， 
。 对 单词 w,, ,的 主题 # 城 少 计数 ; 
。 REPE, = 
。 对 单词 w ,的 新 主题 下 增加 计数 ， 
收敛 后 ， 利 用 公式 计算 所 有 成 和 了 5 。 
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训练 完 模 型 后 就 可 以 得 到 P | d) 和 P(t| qd)， 示 例如 下 : 


Pow | PEJA) 
Word! Word2 ~ Topicl Topic2 

Topicl: 0.002 0.032 Docl: 0.001 0.068 

Topic2: 0.072 0.001 Doc2: 0.002 0.019 


同样 可 以 得 到 属于 每 个 Topic 的 词 的 概率 ， 示 例如 下 : 








Topicl: Topic2: Topic3: 

大 学 0.100702 S24 0.166863 房 0.072123 
学 院 ” 0.040089 快乐 “0.138882 成 交 0.030422 
毕业 0.036775 心情 ”0.036375 楼 市 ”0.029435 
高 考 0.025012 家 庭 。 0.034673 房产 ”0.029342 
专业 ”0.023487 生活 ”0.030413 买房 0.020698 





至 此 LDA 就 讲解 完了 ， 如 果 想 进一步 深入 了 解 LDA 的 每 个 细节 ， 下 
面 的 文章 不 可 不 读 (当然 还 有 其 他 文章 ， 不 一 一 列举 了 ): 

《Variational Message Passing and Its Applications》 

《Latent Dirichlet Allocation》 

«Parameter Estimation for Text Analysis) 

«The Expectation Maximization Algorithm A Short Tutorial) 

(Gibbs Sampling in The Generative Model of Latent Dirichlet Allocation) 
乍 一 看 LDA 很 难 理解 ， 但 是 从 最 终 推 导 的 公式 来 看 ， 代 码 还 是 很 清 
晰 的 ， 下 面 就 是 GibbsLDA++ 开源 工具 包 里 的 核心 代码 ， 其 实 还 是 很 容易 
理解 的 : 
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// --- model parameters and variables --- 
int M; // dataset size (i.e., number of docs) 
int V; // vocabulary size 

int K; // number of topics 

double alpha, beta; // LDA hyperparameters 


int niters; // number of Gibbs sampling iterations 


46 





3.4 “主题 模型 


double * p; // temp variable for sampling 

int ** z; // topic assignments for words, size M x doc.size() 

int ** nw; // cwt[i]l[j]: number of instances of word/term i assigned to 
topic j, size V x K 

int ** nd; // na[i][j]: number of words in document i assigned to topic j, 
size Mx K 

int * nwsum; // nwsum[j]: total number of words assigned to topic j, size K 
int * ndsum; // nasum[i]: total number of words in document i, size M 
double ** theta; // theta: document-topic distributions, size M x K 
double ** phi; // phi: topic-word distributions, size K x V 

int model::init_est() 


{ 


ee 
srandom(time(0)); // initialize for random number generation 
z = newint*[M]; 
for (m = 0; m < ptrndata->M; m++) 
{ 
int N = ptrndata->docs[m]->length; 
z[m] = newint[N]; 
// initialize for z 
for (n = 0; n < N; n++) 
{ 
int topic = (int) (((double) random() / RAND MAX) * K); 
z[m] [n] = topic; 
// number of instances of word i assigned to topic j 
nw[ptrndata->docs[m]->words[n]] [topic] += 1; 
// number of words in document i assigned to topic j 
nd[m] [topic] += 1; 
// total number of words assigned to topic j 
nwsum[topic] += 1; 
} 
// total number of words in document i 
ndsum[m] = N; 
} 
liese 
return 0; 


} 
void model: :estimate () 


{ 


printf( "Sampling %d iterations!\n" , niters); 
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int last_iter = liter; 
for (liter = last_iter + 1; liter <= niters + last_iter; liter++) 
{ 

printf( "Iteration $d ...\n", liter); 


{/f¢ for all z i 
for (int m = 0; m < M; m+t++) 
{ 
for (int n = 0; n < ptrndata->docs[m]->length; n++) 
{ 
// (z_i = zim] [n]) 
// sample from p(z_ilz_-i, w) 
int topic = sampling(m, n); 
z[m] [n] = topic; 


if (savestep > 0) 
{ 
if (liter % savestep == 0) 
{ 
// saving the model 
printf ( "Saving the model at iteration %d ...\n" , liter); 
compute _theta(); 
compute phi(); 
save model (utils::generate model name(liter)); 


} 
}//end for 


printf£( "Gibbs sampling completed!\n" ); 
printf( "Saving the final model!\n" ); 
compute theta(); 
compute _phi(); 
liter--; 
save model (utils::generate_ model name(-1)); 
} 
int model::sampling(int m, int 
{ 
// remove z i from the count variables 


int topic = z[m] [n]; 
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int w = ptrndata->docs[m]->words[n]; 


w[w] [topic] -= 1; 

d[m] [topic] -= 1; 
nwsum[topic] -= 1; 
ndsum[m] -= 1; 


double Vbeta = V * beta; 
double Kalpha = K * alpha; 


// do multinomial sampling via cumulative method 
for (int k = 0; k < K; k++) 


p(k] = (nw[w][k] + beta) / (nwsum[k] + Vbeta) * 
(nd[m] [k] + alpha) / (ndsum[m] + Kalpha) ; 


// cumulate multinomial parameters 
for (int k = 1; k < K; k++) 
{ 

pik] += pik = ll; 


// scaled sample because of unnormalized p[] 
double u = ((double )random() / RAND MAX) * p[K - 1]; 


for (topic = 0; topic < K} topict+) 
{ 
if (p[topic] > u) 
break; 


// add newly estimated z_i to count variables 
a += 1; 
d{m] [ 
nwsum[topic] += 1; 
[m] += 1; 


topic] += 1; 


ndsum 


return topic; 


model::compute_theta() 


for (int m = 0; m < My m++) { 
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for (int k = 0; k < K; k++) { 


theta[m] [k] = (nd[m][k] + alpha) / (ndsum[m] + K * alpha); 


} 
} 
} 
void model::compute_phi () 
{ 
for (int k = 0; k < K; k++) { 
for (int w = 0; w < V; wtt) { 


phi[k] [w] = (nw[w][k] + beta) / (nwsum[k] + V * beta); 


3.5 REFS 


深度 学 习 (Deep Leaning) # Hinton 于 2006 年 提出 来 的 ， 然 而 从 
2012 年 开始 ， 它 变 得 异常 火爆 ， 几 乎 到 处 都 能 听见 “Deep Learning”, {A 








是 它 本 质 上 还 是 一 个 机 器 学 习 模型 ， 只 是 解决 问题 的 思路 有 所 不 同 。 





























我 们 讲 过 ， 传 统 的 机 器 学 习 需 要 提取 特征 ， 然 后 建立 模型 学 习 ， 但 




















<H 
是 特征 


是 人 工 提取 ， 如 果 不 需要 人 工 参与 ， 那 该 多 好 啊 。 深 度 学 习 就 可 以 这 样 ， 





所 以 也 叫 无 监督 特征 学 习 。 

















3.5.1 基本 概述 











前 面 说 过 ， 机 器 学 习 的 过 程 是 受 人 的 学 习 机 制 的 启发 ， 那 么 人 最 聪明 





的 地 方 是 大 脑 ， 如 果 机 器 能 模拟 大 脑 ， 那 势必 会 更 聪明 些 ， 神 经 网 络 就 是 
PEL 


模拟 人 脑 中 的 神经 元 的 工作 方式 。1957 年 提出 的 感知 器 模型 ， 是 
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的 人 工 神 经 网 络 ， 如 图 3.12 左 图 所 示 ， 它 只 有 一 层 网 络 ， 输 出 层 函 数 是 
f(x) =sign(w'x)。 我 们 在 前 面 讲 的 逻辑 回归 也 是 一 种 单 层 神 经 网 络 ， 它 的 


















































输出 层 函 数 是 f(x) = sigmod(w" 


























络 ， 隐 藏 层 是 一 个 核 函 数 。20 世纪 80 年 代 ， 人 们 提出 的 神经 网 络 是 比 感 
知 器 稍微 复杂 的 非 线性 模型 ， 最 经 典 的 就 是 BP 神经 网 络 ， 它 有 三 层 网 络 
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3.5 深度 学 习 





模型 (输入 层 、 隐 藏 层 、 输 出 层 )， 如 图 3.12 右 图 所 示 。 这 些 模型 都 是 小 
层 网 络 ( 最 多 三 层 )。BP 神经 网 络 的 学 习 算 法 非常 重要 ， 所 以 我 们 有 必要 
介绍 一 下 这 个 网 络 ， 它 的 公式 如 下 《这 也 就 是 正 向 传播 ) 

z =W'x+b' 

a° = f(z’) 

Zit z W' a! 十 已 

qt! = f(z'") 

其 中 , /是 激励 函数 ， 常 用 的 激励 函数 有 sigmoid 函数 、tanh 函数 等 ， 

有 的 输出 层 使 用 softmax 函数 CM 3.2 节 )。 















































BP 神 经 网 络 : 普通 激励 函数 
核 函数 





感知 器 : Sign 函数 
逻辑 回归 : sigmoid 函 数 
t 




















那么 怎么 求解 其 中 的 参数 〈 每 一 层 的 不 和 2) We? 使 用 梯度 下 降 法 来 





w! aw! -a fL 
ow! 
pl =p! g LL») 
ob! 


RE LO, b) 就 是 损失 函数 ， 前 面 已 经 讲 过 ， 有 平方 损失 、 似 然 损 


失 等 。 








OLW,b) ô A 
ow! 8z"! ow! 8z! 
6L(W,b) _ S5L(W,b) 6z 56L(W,b) 
6b! 5 l+ ob! ô l+1 
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剩 下 的 问题 就 是 求解 5L(W,b)/56z"1 了 ， 令 ogo/ =5L(W,b)/ 62! 
对 于 输出 层 





区 oL(W,b)  L(W,b) 





"2" 
Ps 5f S'E”) 
对 于 每 个 隐藏 层 
1 OL(WW,b) _ 6L(W,b) 62"! 6a! WT I+, pyl 
o = = =(W)o :f(z 
bz! 6z ôa! 6z! W) Itz) 


y 


这 样 就 可 以 求解 出 所 有 参数 了 ， 上 面 的 推导 使 用 的 是 矩阵 形式 ， 下 面 
我 们 从 代码 里 来 具体 看 看 这 个 算法 的 细节 : 














= 





























//bp.h 

ifndef BP H_ 
define _BP_H_ 
#include <time.h> 
include <stdlib.h> 
include <stdio.h> 
include <math.h> 


class CBackProp 











private: 
double **m delta; // 每 个 单元 的 误差 
double ***m weight; // 权 重 W 和 Pb 
int m layer number; // 网 络 的 层 数 
int *m_layer size; // 每 层 网 络 的 节点 数 
double m beta; // 学 习 速 率 
double m_alpha; // 冲 量 率 
double **m_out; // 每 个 单元 的 输出 
double ***m prevDWt;  ， // 前 一 次 迭代 的 权重 更 值 
public: 
~CBackProp (); 


CBackProp(int layer number, int *layer_size, double beta, double alpha); 


//sigmoidm & 

double Sigmoid(double in) const { return (double) (1/(1+exp(-in))); } 
//sigmoid 函 数 导 数 

double SigmoidDerivative (double gx) const { return *(1 - gx); } 
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//thk BR 
double MSE(double *target) const; 
// 损 失 函 数 导 数 


double MSEDerivative (double *gx, int i) const; 


//BP 训 练 
void BackProp(double *in, double *target) ; 
// 前 向 传播 


void FeedForward(double *in); 


// 获 得 第 个 输出 
double GetOut(int i) const{ return m_out[m_layer_number-1] [i]; } 


endif 


//bp.cpp 

include "bp.h" 

CBackProp::CBackProp(int layer number, int *layer size, double beta, 
double alpha) : m_beta(beta),m_alpha(alpha) 








m layer number = layer number; 
m layer size = new int[m_layer_ number]; 
for(int i = 0; i < m_layer number; i++){ 


m layer size[i] = layer size[i]; 


m_out = new double*[m_layer number]; 
for(int i = 0; i < m layer number; it++){ 


m_out[i] = new double[m_ layer size[i]]; 


m_delta = new double*[m_layer number]; 
for(int i = 1; i < m layer number; i++){ 


m_delta[i] = new double[m_ layer size[i]]; 


m weight = new double**[m_ layer number]; 

for(int i = 1;i < m_layer number; i++) { 
m_weight[i] = new double*[m_layer size[i]]; 

} 


for(int i = 1;1 < m layer number; i++) { 
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for(int j = 0;j < m layer size[i]; j++){ 
m_weight[i][j] = new double[m_layer size[i-1]+1]; 


m_prevDWt = new double**[m_layer number]; 

for(int i = 1;1 < m_layer number; i++) { 
m_prevDWt[i] = new double*[m_layer size[i]]; 

} 


for(int i = 1; i < m layer number; it++){ 


for(int j = 0;j < m layer size[i]; j++){ 
m_prevDWt[i][j] = new double[m_layer_size[i-1]+1]; 
} 
} 
for(int i = 1;i < m layer number; i++) 
for(int j = 0;j < m layer_size[i]; j++) 
for(int k = 0; k < m layer size[i-1]+1; k++) 
m_prevDWt[i][j][k] = (double)0.0; 


// 初 始 化 随机 数 
srand( (unsigned) (time (NULL) )); 


for(int i = 1;1 < m layer number; i++) 
for(int j = 0;j < m layer size[i]; j++) 
for(int k = 0; k < m layer size[i-1]+1; k++) 
m_weight [i] [j] [k] = (double) (rand ())/(RAND_MAX/2) - 1; 


CBackProp: :~CBackProp () 
{ 
for(int i = 0;i < m_layer number; i++) 
delete[] m_out[il]; 
delete[] m_out; 


for(int i = 1;i < m_layer number; i++) 
delete[] m_delta[i]; 
delete[] m delta; 


for(int i = 1; i < m layer number; i++) 
for(int j = 0; j < m layer size[i]; j++) 
delete[] m weight[i] [j]; 








for(int i = 1; i < m layer number; i++) 
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delete[] m weight[i]; 
delete[] m weight; 


for(int i = 17i < m_layer number; i++) 
for(int j = 0;j < m layer size[i]; j++) 
delete[] m_prevDWt [i] [j]; 


for(int i = 1;i < m_layer number; i++) 





delete m_prevDWt [i]; 
delete[] m_prevDWt; 





delete[] m_layer size; 


double CBackProp::MSE(double *target) const 
{ 
double mse = 0.0; 


for(int i = 0; i < m layer size[m_ layer number-1]; i++) 





mse += (target [i]-m_out[m layer number-1][i]) * (target[i]-m_ out[m_ 
layer number-1] [i]); 
return mse / 2.0; 


double CBackProp::MSEDerivative (double *gx, int i) const 


return gx[i] - m_out[m_layer number-1] [i]; 


void CBackProp: :FeedForward (double *in) 





double sum = 0.0; 


//m_out[0] 存 输入 
for(int i = 0; i < m_layer_size[0]; i++) 
m_out[0] [i] 


in[il; 


for(int i = 1; i < m layer number; i++){ 
for(int j = 0; j < m layer size[i]; jt++){ 
sum = 0.0; 
for(int k = 0; k < m_layer size[i-1]; k++){ 
sum += m_out[i-1] [k] 
} 
sum += m_weight[i][j][m_layer size[i-1]]; // +b 
m_out[i][j] = Sigmoid(sum) ; 
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void CBackProp::BackProp(double *in, double *target) 
{ 


double sum = 0.0; 


// 更 新 out 


FeedForward (in); 





// 计 算 输出 层 的 delta 
for(int i = 0;i < m layer size[m layer number-1]; i++){ 
m_delta[m_layer number-1][i] = SigmoidDerivative (m_out [m_ 





layer number-1][i]) * MSEDerivative (target, i); 


} 


// 计 算 隐 茂 层 的 delta 
for(int i = m layer number=2; i > 0; i--){ 
for(int j = 0; j < m layer _size[i]; jt++){ 


sum = 0.0; 
for(int k = 0; k < m layer size[itl]; k++){ 

sum += m delta[i+1] [k] * m weight[i+1] [k] [j]; 
} 


m_delta[i][j] = SigmoidDerivative (m_out[i][j]) * sum; 
} 
} 
// 冲 量 
for(int i = 1; i < m Layer number; i++){ 
for(int j = 0; j < m layer size[i]; jt+){ 


for(int k = 0; k < m layer size[i-1]; k++){ 
m_weight [i] [j][k] += m alpha * m prevbDWt[i] [3] [k]; 


m_weight[i][j][m_layer_size[i-1]] += m alpha * m_ 
prevDWt[i] [j] [m_layer size[i-1]]; 
} 


// 梯 度 下 降 调整 权重 
for(int i = 1; i < m layer number; i++){ 
for(int j = 0; j < m layer size[i]; jt++){ 
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for(int k = 0; k < m layer size[i-1]; k++) { 
m_prevDwt [i] [j] [k] = m beta * m delta[i] [j] * m out[i-1] [k]; 
m weight[i] [j] [k] += m prevDWt [i] [j] [k]; // 更 新 W 

} 

m_prevDWt [i] [j] [m layer size[i-1]] = m beta * m delta[i] [j]; 

m_weight[i][j][m_layer size[i-1]] += m_prevDWt[i][j] [m_ 
layer size[i-1]]; // 更 新 b 
} 
} 





这 些 浅 层 网 络 有 很 多 缺点 : 初始 值 的 选取 是 随机 的 ， 很 容易 收敛 到 局 
部 最 优 解 ， 导 致 过 拟 合 ， 如 果 增 加 隐藏 层 的 话 ， 就 会 使 传递 到 前 面 的 梯度 
越 来 越 稀疏 ， 收 敛 速度 很 慢 ; 它 没有 利用 海量 的 未 标注 数据 ， 所 以 很 难 有 
大 的 突破 。 

为 了 克服 浅 层 神经 网 络 的 训练 缺陷 ， 早 期 的 深度 学 习 是 在 海量 数据 中 
采用 贪 禁 式 的 逐 层 学 习 方法 : 首先 是 无 监督 训练 ， 单 独 训 练 一 层 ， 然 后 把 
该 层 的 输出 作为 下 一 层 的 输入 ， 使 用 相同 的 方法 一 直 向 上 训练 ， 然 后 到 最 
上 层 是 一 个 有 监督 的 从 上 到 下 的 微调 。 所 以 深度 学 习 相 比 神经 网 络 最 大 特 
点 是 深层 网 络 的 训练 算法 和 训练 技巧 以 及 大 规模 的 数据 集 ， 一 般 来 说 使 用 
深度 学 习 有 两 个 框架 。 

(1) 无 监督 学 习 + 有 监督 学 习 : 首先 从 大 量 未 标注 数据 中 无 监督 逐 
学 习 特 征 ， 然 后 把 学 习 到 的 特征 放 到 传统 的 监督 学 习 方 法 来 学 习 模 型 。 

(2) 有 监督 学 习 : 首先 逐 层 学 习 ， 到 网 络 最 上 层 是 一 个 分 类 器 (例如 ， 
softmax 分 类 器 )， 整 个 是 一 套 深层 网 络 模型 。 

从 深度 学 习 诞生 到 现在 ， 已 经 有 学 者 逐步 提出 了 不 少 模型 ， 目 前 使 用 
较 多 的 有 : 

DNN 深度 神经 网 络 ); 

CNN ( 卷 积 深度 网 络 ); 

RNN (递归 神经 网 络 ); 

GAN (生成 对 抗 网 络 ); 
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Seq2Seq〈 端 对 端 模型 框架 )。 





深度 学 习 的 优势 在 于 海量 训练 数据 和 好 的 训练 模型 
数据 起 的 作用 更 大 )。 既 然 有 海量 


























(个 人 认为 海量 





训练 数据 ， 那 么 对 计算 性 能 就 会 有 很 高 








的 要 求 ， 一 般 都 是 使 用 GPU 来 训练 深度 学 习 模 型 ， 这 些 都 是 以 前 无 法 达 


到 的 。 
3.5.2 ”文本 表示 








我 们 看 看 深度 学 习 在 文本 上 怎么 应 用 。 前 面 提 到 过 ， 在 自然 语言 处 理 
中 有 个 假设 : bag of words。 一 篇 文档 由 




















按照 字母 顺序 排 成 一 个 很 长 的 向 量 ， 

















民 多 词组 成 ， 如 果 把 字典 中 所 有 词 
那么 每 篇 文档 就 可 以 使 用 这 个 长 向 
量 来 表示 了 。 茶 个 词 出 现 了 ， 就 标记 为 1， 没 有 出 现 的 词 标记 为 0。 可 以 














想象 ， 每 个 文档 将 会 是 一 个 稀 玻 向 量 。 把 文档 表示 成 向 量 就 会 有 很 多 缺 
点 ， 例 如 ,“ 电 脑 ” 和 “计算 机 ” 
它们 就 没有 语义 关系 了 ， 因 为 它们 在 词典 中 的 不 同位 置 ， 不 管用 什么 方法 




















Ccosine) 都 没 法 计算 出 很 好 的 相似 性 。 
































很 大 的 语义 相似 性 ， 但 





























日 是 表示 成 向 量 




















也 就 是 说 把 词 表 示 成 一 个 模 位 是 不 





合理 的 ， 那 么 我 们 可 不 可 以 用 更 好 的 方法 表示 词 或 者 句子 的 信息 呢 ? 深度 











学 习 提 供 了 一 种 思路 。 








深度 学 习 在 文本 上 的 应 用 ， 也 都 是 把 句子 通过 























Hi 











然后 再 对 得 到 的 向 量 进行 各 种 外 




















至 于 怎么 把 词 或 者 句子 表示 成 向 量 ， 后 面 











把 词 或 者 句子 表示 成 向 量 的 意义 。 














H 




















我 个 人 有 两 种 理解 : ( 














深度 学 习 模型 表示 成 向 
F 务 ， 如 图 3.13 所 示 。 





详细 介绍 ， 先 解释 一 下 


1) 变换 。 就 像 


在 信号 处 理 中 ， 当 信号 在 时 域 不 好 处 理 的 时 候 ， 就 通过 传 里 叶 变换 或 者 
小 波 变换 把 它 映射 到 频 域 中 处 理 ， 


处 理 完 后 再 映射 回 时 域 中 。 把 句子 表 














示 成 向 量 也 可 以 认为 是 同一 





个 思路 。 























就 好 比 当 我 们 在 “物理 世界 ”中 遇 








到 困难 的 时 候 ， 要 静 下 心 来 ， 听 听 自 己 内 心 深 处 的 想法 ， 也 就 是 “灵魂 
世界 ”的 “本 我 ”的 真正 诉求 (物理 世界 到 灵 现 世界 的 变换 )， 然 后 再 到 
“物理 世界 ”中 克服 掉 困 难 ， 但 是 往往 绝 大 多 数 人 的 “本 我 ”被 “物理 世 



























































界 ” 的 虚 约 所 迷惑 ， 很 难 做 出 这 样 的 变换 。( 2 ) 量 化 。 自 然 语言 很 难 量 化 ， 
所 以 表示 成 向 量 可 以 认为 是 一 种 新 的 量化 方式 。 对 于 自然 语言 来 说 ， 把 
个 句子 表示 成 向 量 ， 这 个 向 量 就 真能 代表 它 的 语义 信息 吗 ? 这 是 个 值 


得 思考 的 问题 。 






































各 种 任务 
(分 类 ， 相 似 度 计算 ， 生 成 模型 ，…) 





(今天 天 气 真 好 啊 ) 





图 3.13 











3.5.3 词 表 示 





词 表示 (Word Embedding) 是 一 个 很 好 的 模型 ， 而 且 我 认为 它 也 是 目 
前 NLP 方面 取得 的 最 大 进展 (其 他 的 尝试 底层 的 输入 几乎 都 是 词 向 量 )， 
它 相 当 于 把 词 “ 表 示 ” 出 了 更 丰富 的 信息 ， 这 样 就 有 可 能 看 到 bag of words 
看 不 到 的 信息 。 

对 于 词 的 表示 就 是 想 办 法 把 词 表 示 成 了 一 个 向 量 。 既 然 表 示 成 向 量 
了 ， 那 么 两 个 词 之 间 就 可 以 计算 相似 性 了 〈cosine)。 词 表示 是 通过 神经 语 
言 模型 来 训练 得 到 的 《是 语言 模型 的 一 个 副产品 ， 语 言 模型 训练 完了 ， 词 
表示 也 有 了 )。 目 前 大 致 有 两 种 框架 : 

最 经 典 的 NNLM (Neural Net Language Model) 当 属 Bengio 于 2001 
年 发 表 的 通过 语言 模型 得 到 词 表示 的 方法 了 了， 如 图 3.14 所 示 。 
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i-th output=P (w=i |context) 


4 
softmax 


# s : `N 
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/ F; \ 
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j r 


most | computation here 














D JE (wea) 


、 Shared parameters 
in C 
across words 









C (wa) Pe 








index for yp index for w, » index for w, 1 
图 3.14 
这 是 一 个 三 层 语 言 模型 《有 的 理解 为 四 层 ， 即 把 输入 层 分 成 了 输入 层 





和 投影 层 ) ， 它 根据 已 知 的 前 三 1 个 词 Wont wW 来 预测 下 一 个 词 w， 


























C(w) 表示 词 w 对 应 的 词 向 量 (C 就 是 所 有 词 的 词 向 量 ， 是 Xm 的 矩阵 , 
| 四 表示 词 的 总 个 数 ，m 表示 词 向 量 的 维 数 ，h 表示 隐藏 层 个 数 ，U (VXh 
的 矩阵 ) 是 隐藏 层 到 输出 层 的 参数 ，WVr AX (nm 的 矩阵 ) 是 输入 层 到 
输出 层 的 参数 。 

整个 网 络 的 输出 计算 公式 为 











y=b+Wx+U 

















tanh(d + Hx) 


来 解释 一 下 ， 网 络 的 输入 层 就 是 根据 前 n-1 词 Ova RE 
它们 在 C 中 对 应 的 向 量 〈Cow ;0)…,C0wi 1))， 然 后 连 成 一 个 x-1)m 维 的 
一 维 向 量 x， 即 x = (Cw ,0)…,C0w, 1))。 网 络 的 隐藏 层 和 普通 神经 网 络 一 
样 做 一 个 线性 变换 ， 然 后 取 tanh。 网 络 的 输出 层 总 共有 | | 个 节点 ， 每 个 





节点 表示 











的 就 是 根据 已 知 的 前 n 个 i 























司 下 一 个 词 是 该 词 的 概率 这 个 概 


率 最 后 使 用 softmax 进行 归 一 化 ， 即 有 《〈2 Wx 表示 从 输入 层 到 输出 层 直 接 





有 个 线性 变换 ) 





Wt 


Sr 


P(w, | Wendie W 





那么 ， 这 个 模型 的 参数 为 0= (b,d,W,U,H,C), efi i A ot AY A EA 


梯度 下 降 法 求解 了 。 
可 以 看 出 ， 这 个 模型 的 计算 复杂 度 很 高 ， 尤 其 是 隐藏 层 到 输 


























个 大 和 矩阵 相 乘 ， 为 了 降低 计算 复杂 度 ， 就 提出 了 一 些 改进 的 模型 ， 








出 层 的 那 
例如 下 


面 的 LBL (Log-Bilinear Language Model) ， 框 架 图 如 图 3.15 所 示 。 

















它 的 网 络 的 计算 公式 为 


= > H; xC(w 
i=1..n—1 
y=C(w;) h 


Wn 





P(w, [Wp Wi ) = 


Le 
1 








其 中 C(w) 就 是 词 w 对 应 的 词 向 量 。 
这 个 模型 其 实 很 好 理解 。h 























来 的 ， 也 就 是 前 n-1 个 词 经 过 H 这 个 变换 之 后 就 可 以 用 来 预测 第 n 个 词 。 
输出 层 是 什么 呢 ? 就 是 隐藏 层 和 第 个 词 本 身 做 内 积 ， 内 积 是 可 以 表示 相 
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似 度 的 ， 也 就 是 说 输出 层 是 隐藏 层 所 预测 的 第 n 个 词 和 真实 的 第 n 个 词 的 
相似 度 ， 最 后 用 softmax 把 概率 归 一 一 下 。 

RNNLM (Recurrent Neural Net Language Model) 和 上 面 的 方法 原理 一 
样 ， 但 是 思路 有 些许 不 同 ， 如 图 3.16 所 示 。 
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w (1) y(n) ed 
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它 的 网 络 的 计算 公式 为 
s(t) = sigmoid(Uw(t) + Ws(t — 1)) 
PW. | Wa s(t — 1))= y(t) = softmax(Vs(t)) 

其 中 ，w(D 表示 当前 词 w 的 向 量 。 这 个 向 量 的 大 小 就 是 所 有 词汇 的 个 
数 ， 所 以 w(t) 是 个 很 长 的 且 只 有 一 个 元 素 为 1 IA, s(t-1) 是 上 次 的 隐 
Ba, yO) 是 输出 层 ， 它 和 w(t) 具有 相同 的 维 数 ， 代 表 根 据 当 前 词 w 和 隐 
藏 层 对 词 ws 的 预测 概率 。 由 于 w(t) 只 有 一 个 元 素 为 1， 所 以 Uwe 就 是 
该 词 对 应 的 词 向 量 。 整 个 过 程 就 是 来 一 个 词 ， 就 和 上 一 个 隐藏 层 联 合计 算 
下 一 个 隐藏 层 ， 然 后 反复 进行 这 个 操作 ， 所 以 它 对 上 下 文 信息 利用 得 非常 
好 。RNN 在 后 面 还 会 详细 介绍 。 
Google 的 Word2Vec 是 直接 训练 词 向 量 的 ，Tomas Mikolov 提出 了 两 
! 方 法: CBOW 和 skip-gram 方法 的 训练 目标 是 给 定 一 个 词 的 
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context (通常 给 定 一 个 窗口 
练 目 标 则 是 给 定 





一 些 tricks， 例 如 Hierarchic 


3.5 深度 学 习 


) ， 预 测 该 词 的 概率 。 在 skip-gram 方法 中 ， 训 


一 个 词 ， 预 测 该 词 的 context 的 概率 ， 作 者 在 训练 时 用 了 





al softmax 和 Negative sampling， 思 路 与 图 3.17 








的 下 图 类 似 ， 在 输出 


RA] 








汇 量 太 大 ， 导 致 计算 量 增 大 ， 所 以 要 在 输出 层 





做 分 层 减 少 计算 量 ，short list 是 高 频 词 ，top classes 和 sub-class 是 对 其 他 


词 的 处 到 
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sp (人 人、 三 E. t. PESSE +. TS E pig 
那么 怎么 评价 词 向 量 到 底 靠 不 靠 谱 呢 ? 主要 还 是 看 它 应 用 到 具体 任务 
bi Ay I — e es. Ey poser TE yop Ay 
的 指标 。 既 然 将 词 表 示 成 了 向 量 ， 那 么 向 量 之 间 就 可 以 计算 内 积 、 加 减 等 











运算 ， 如 果 两 个 词 














就 是 计算 内 积 (cosine)。 我 们 尝试 找 一 些 词 ， 然 后 找 出 和 它 cosine 值 





语义 关系 ， 那 么 它们 就 可 以 体现 在 向 量 上 表示 出 来 ， 





EL 


EX 
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相似 的 top 词 看 看 结果 ， 如 图 3.18 所 示 〈 在 60GB 文本 语 料 中 训练 得 到 
可 以 看 出 效果 还 可 以 。 既 然 单个 词 可 以 计算 相似 度 ， 那 么 很 自然 的 想法 就 
是 对 向 量 加 减 运算 后 也 是 向 量 ， 也 可 以 计算 相似 性 : C( 中 国 ) -C (美国 ) 
+C (华盛顿 ) 的 词 向 量 应 该 和 C (北京 ) 最 相似 。 但 是 只 能 说 热门 词 效果 
会 比较 好 ， 对 于 不 太 常 用 的 词 效 果 也 并 不 是 很 理想 。 这 个 主要 和 语 料 有 很 
大 关系 ， 语 料 越 大 ， 那 么 词 向 量 就 越 好 。 很 显然 ， 数 据 越 多 〈 大 数据 )， 
对 统计 方法 来 说 越 有 利 ， 而 且 如 果 在 同一 领域 (topic) 内 的 话 ， 数 据 就 相 
对 不 会 太 稀疏 ， 效 果 又 会 更 好 。 所 以 一 般 我 们 处 理 任 务 的 方法 就 是 ， 先 在 
通用 的 领域 上 完成 某 个 任务 ， 要 想 达到 更 好 的 效果 ， 就 要 细 分 领域 来 处 理 
(所 以 分 类 问题 是 任何 领域 都 会 涉及 的 问题 )。 





WY 











, 








































































































Lt 





RE 


百事 可 乐 
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图 3.18 





























词 表 示 只 能 给 一 个 词 训练 出 一 个 向 量 ， 然 而 在 实际 应 用 中 ， 一 些 词 会 
有 多 个 意思 【例如 苹果 、 小 米 等 )， 那 么 一 个 向 量 就 表示 不 了 多 个 语义 ， 所 
以 我 们 设计 了 一 个 很 简单 的 模型 ， 我们 把 它 称 之 为 Word Multi-Embedding, 
它 可 以 训练 出 一 个 词 的 多 个 语义 向 量 。 那 么 怎么 将 词 的 丰富 含义 融合 到 词 
表示 模型 中 呢 ? 有 这 么 几 种 方法 。 

(1) 使 用 Topic model 可 以 得 到 每 个 词 在 每 个 类 别 的 概率 ， 然 后 可 以 
融合 到 词 表 示 模 型 中 ， 但 是 该 方法 对 长 尾 词 效果 并 不 好 。 

(2) 使 用 词 聚 类 可 以 将 词类 别 聚 出 来 ， 而 且 可 以 得 到 聚 类 中 心 点 ， 然 
后 对 每 一 个 词 都 可 以 根据 上 下 文 归 入 某 一 类 ， 然 后 融合 到 词 表 示 模 型 中 。 
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该 方法 训练 速度 很 慢 ， 而 且 该 方法 同方 法 (1) 都 有 一 个 缺点 ， 就 是 长 尾 
类 别 没 法 聚 出 来 。 
(3) 如 果 能 事先 挖掘 出 各 个 词 属于 某 些 类 别 的 先 验 概率 ， 那 么 也 可 以 
融合 到 词 表 示 中 ， 我 们 使 用 这 种 方法 。 
我 们 的 模型 流程 如 下 。 
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Word Multi-Embedding 算法 训练 流程 : 
Input: 数据 集 (D 个 句子 ) ， 句 子 窗口 nan， 上下文 窗口 4 ;多 义 项 词 
Output : JŒ w,i = 1..N 






































for t = 1..D do 
K = word number of t’ s sentence 
w = lookup the K words 
for i= 1..K do 





W 
context (Wi)=C i ={W} qr. Wi-1,Wi+1r- Witd | Wy} 


W 
class (Wi2)=C i = Wig Wi Wit Witd |wi} 


Wi WiZ , 
z=argmax, > ee > Ar mea zh ) //use cosine 


OlogP(w;,z [wi_nt1lr. .Wi-1) 


(b,d, Ww" ,U, H,C) =0(b, d, WY 7, U, H,C)+e T 




















Ds 











3.19 所 示 是 一 些 根据 向 量 计算 相似 度 的 实验 效果 。 











Enter word or sentence (EXIT to break): 自重 


- 886117 
- 873391 
- 871370 
-863795 
- 839435 
- 823503 
- 820806 
- 820695 
-815461 
-814216 
-814177 
- 809769 
- 808533 
- 808082 
- 807036 


- 832679 
- 828974 
825810 
- 823834 
816198 
-815774 
- 807913 
- 804034 
- 802081 
- 793094 
- 785230 
.785225 
.784128 
.783217 
.783193 


QQ 
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Enter word or sentence (EXIT to break): # 


制服 _ 式 样 


- 930641 
914627 
- 912806 
. 901339 
.893544 
.883687 
.878245 
.873962 
.872912 
.871652 
.862232 
- 850473 
.844225 
- 840502 
- 840028 


- 938556 
910118 
. 909464 
893938 
892542 
- 886329 
885968 
883689 
- 881547 
877356 
- 876738 
- 871989 
-867511 
- 866660 
- 865053 


Ge 


or sentence (EXIT to break): 苹果 


-896936 - 897802 
-893269 - 881227 
-891218 - 878704 
883681 患 .869296 
.882138 i . 864034 
-882046 - 862256 
- 881503 realnetworks . 858963 
-877793 pe . 854004 
- 876297 alienware + 853922 
873596 索尼 .856886 
.871722 appstore .849236 
.871591 palm .847549 
.869526 google .843413 
.867869 摩托 罗拉 .839573 
.863555 dell - 839144 


£13.19 ( 续 ) 


前 词 向 量 一般 也 有 两 种 用 法 : (1) 把 词 向 量 当 做 一 个 特征 ， 加 入 到 
现 有 的 NLP 任务 中 。 我 们 曾经 尝试 将 词 向 量 作为 命名 实体 识别 的 一 个 额外 
特征 ， 效 果 虽 然 有 提升 ， 但 是 并 不 像 在 图 像 和 语音 应 用 中 那么 明显 ， 还 需 

一 步 探 索 。(2) 直接 把 词 向 量 作为 神经 网 络 的 输入 完成 一 些 NLP 任务 ， 
就 像 《Natural Language Processing (Almost) from Scratch》 这 篇 文章 的 工作 。 
我 以 词性 标注 任务 简单 介绍 下 这 种 方法 的 思路 ， 如 图 3.20 所 示 〈 比 作者 在 
论文 中 用 的 那个 图 要 好 理解 )。 首 先 要 对 一 句 话 进行 lookup 操作 ， 即 寻找 
词 的 特征 。 词 向 量 特征 的 大 小 是 50 维 ， 紧 接着 有 一 个 5 维 caps 特征 (是 
否 大 写 ， 是 否 数 字 等 )， 然 后 是 一 个 5 维 后 级 特征 (最 多 455 个 )， 这 就 
组 成 了 每 个 词 的 输入 特征 〈 共 60 维 )。 然 后 经 过 linear 操作 ， 映 射 到 隐藏 
层 ， 它 有 300 维 大 小 ; 做 一 个 
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3.5 深度 学 习 





射 到 输出 层 ， 输 出 层 中 每 个 词 的 维 数 是 45 (pos 有 45 个 标记 )， 最 后 经 过 

Viterbi 算法 找到 每 个 词 的 最 佳 POS_TAG。 这 就 是 该 论文 使 用 深度 学 习 来 

处 理 NLP 任务 的 大 致 思路 ， 其 他 任务 也 类 似 ， 大 家 可 以 详 读 一 下 该 论文 。 
O O 


第 二 个 词 A 第 二 个 词 B 


J, lookup 


pad pad 第 一 个 词 A 第 一 个 词 B pad pad 


linear 




































































input 


Hardtanh 300 hidden 


J, linear 


第 一 个 词 A 第 一 个 词 B 第 一 个 词 C 


Viterbi J transition 


45 








3.20 








3.5.4 ”句子 表示 














句子 表示 自然 就 是 把 句子 表示 成 一 个 向 量 。 当 把 词 表 示 成 向 量 之 后 ， 
自然 会 有 一 种 想法 : 句子 由 词组 成 ， 那 么 句子 向 量 也 可 以 用 词 的 向 量 组 合 
起 来 ， 于 是 就 有 了 图 3.21 所 示 的 两 种 方法 了 : 第 一 种 是 直接 将 词 向 量 累 加 
去 平均 来 表示 句子 向 量 ;， 第 二 种 其 实 是 2-gram 的 方法 。 

将 词 向 量 组 合成 句子 向 量 ， 直 观 上 应 该 不 能 表示 句子 含义 ， 所 以 加 一 
些 结构 (例如 ， 句 法 分 析 等 ) 进去 应 该 会 能 更 好 地 表示 句子 ， 所 以 就 有 
了 ReNN 模型 (Recursive neural network， 不 同 于 Recurrent neural network, 
仔细 对 比 下 图 3.16)， 如 图 3.22 所 示 ， 应 该 一 目 了 然 了 。 









































































































































67 





第 3 章 
让 机 器 可 以 像 人 一 样 学 习 


Siz 
[m+ ]/4 average pooling pa 
cE HE UE 
convolutional layer ~ / 
S EE BEE EE EE 
ae eaten the movie is wonderful 





图 3.21 











S ME tanh (Wx[m, m]+b) 


VP tanh (Wx[m, m]+b) 
[| å a ‘E 
the movie is wonderful 
图 3.22 
在 《Distributed Representations of Sentences and Documents) #1 (A Model 














of Coherence Based on Distributed Sentence Representation》 两 篇 论文 中 ， 计 
算 句 子 向 量 的 思路 大 致 相同 。 图 3.23 (a) 是 在 计算 词 向 量 的 时 候 给 每 个 


ih 


Average/Concatenate 上 ao 
Paragraph Matrix -----> a a a o 
the 


aa cat 





Classifier 


(a) 


Hidden Layer 


sigmod (Ux EE -+b) 


tanh (Wn E +b...) 


Mary was hungry She didn’t find She went to the 
any food. restaurant. 








3.5 深度 学 习 


























句子 前 面 赋予 一 个 id， 这 样 这 个 id 的 向 量 就 可 以 表示 该 句子 的 向 量 了 ; 
(b) 就 直接 把 句子 当做 一 个 整体 来 训练 (相当 于 把 句子 看 成 词 )， 这 
样 就 可 以 得 到 整个 句子 的 向 量 了 ， 但 是 这 两 种 方法 难以 预测 新 句子 的 
向 量 。 

《Skip-Thought Vectors》 提 出 了 一 种 新 颖 的 方法 ， 思 路 也 是 来 源 于 训练 
词 向 量 ， 如 图 3.24 所 示 。 首 先 使 用 RNN 将 当前 句子 表示 成 一 个 向 量 ， 然 
后 使 用 该 向 量 预 测 它 前 后 句子 ， 使 得 概率 最 大 。 这 个 模型 是 可 以 得 到 新 名 
子 的 向 量 的 。 













































































> logP (wiawo h) +) logP (wawo hi) 
t t 


1 got back home <eos> 


Der <e0S> 1 got back home 





-® -0 -® -® -®© -© -O— . 
1 could see the cat on the steps ~~ This was „strange _<eos> 


<eos> This was strange 





413.24 




















这 几 种 是 较 典 型 的 计算 句子 向 量 的 方法 ， 当 然 还 有 很 多 其 他 方法 。 上 
面 的 有 些 方法 是 可 以 得 到 任意 句子 的 向 量 的 〈 图 3.21 左 图 和 图 3.24)， 而 
了 些 方法 是 要 和 具体 的 一 个 任务 相关 (图 3.21 右 图 和 图 3.22)， 也 就 是 有 
监督 的 方法 ， 得 到 句子 向 量 只 是 其 中 的 一 个 环节 。 我 个 人 认为 要 想 获 得 较 
好 的 句子 向 量 应 该 是 和 任务 相 结合 的 ， 比 如 文本 分 类 或 者 后 面 要 说 的 生成 
模型 或 者 相似 度 模型 。 







































































3.5.5 ”深度 学 习 模型 及 其 一 些 应 用 
于 近来 深度 学 习 取得 了 一 些 进 展 ， 这 市 
度 学 习 模型 及 其 一 些 具体 应 用 。 
3.5.5.1 损失 函数 和 学 习 方 法 
先 介绍 一 下 深度 学 习 一 般 使 用 的 损失 函数 和 学 习 算 法 ， 前 面 在 介绍 机 
器 学 习 时 已 经 讲 过 一 些 ， 现 在 主要 围绕 深度 学 习 再 简单 介绍 一 下 。 
在 RNN 模型 的 应 用 中 ， 一 般 使 用 交叉 灶 作 为 损失 函数 。 
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四 


E'(0)=-) y, ; xlog(y,;) 


j=l 


1 T 1 四 
Ds DIE) Py x log(y,,;) 
t=1 


1=] j=l 

















其 中 , yÆ nki, DEMMA, ERAK, >-RR-* 
softmax PA. WP SCART, y 一般 都 是 |V] AER one hot [A] ([0,0,1,0,---) 
TEI ABR SIRT A PB BL SC ET BLS PRG 表示 上 时 刻 真 实 词 的 
位 置 ) 














De 7 
E=-—) log(5,,;) 
T žel 





























学 习 算法 有 很 多 种 ， 前 面 讲 的 梯度 下 降 法 或 者 mini-batch 梯度 下 降 法 
就 是 较 常 用 的 算法 。 然 而 梯度 下 降 法 速度 太 慢 ， 所 以 有 一 些 优 化 算法 ， 如 
下 所 示 。 

动量 法 : 它 对 当前 迭代 的 更 新 中 加 入 上 一 次 迭代 的 更 新 。 

VO=0-0, 
6, =0,,+(pV9, -heg,) 
其 中 , p 为 动量 因子 ， 一 般 为 0.9，14 是 学 习 率 ，g, 就 是 梯度 。 
AdaGrad 是 自 适 应 地 为 各 个 参数 分 配 不 同学 习 率 的 算法 。 
0, =, & 
y E Fé 
其 中 , p 为 学 习 率 ， 一 般 为 0.01，e 一 般 取 很 小 的 值 e "。 
AdaDelta 是 用 一 阶 的 方法 近似 模拟 二 阶 牛 顿 法 的 算法 。 
Ele’), = PE(g”),1+(- pg; 
ve = JE(V@2) +e 
JEG ) +e 
E(V6"), = pE O), +0- p)V@ 













































































其 中 , p 为 衰减 系数 ， 一 般 为 0.95，c 一 般 取 很 小 的 值 e °. 
Rmsprop 是 Hinton 提出 的 一 种 也 可 用 于 mini-batch learning 上 而 且 效 
果 很 不 错 的 训练 算法 。 

















w=prit+(-p)e? 
&i 
vy 
其 中 , p 一 般 为 0.9，4 一 般 为 0.001，< 一 般 取 很 小 的 值 e“。 
3.5.5.2 RNN 
前 面 我 们 介绍 了 BP 神经 网 络 ， 它 每 层 之 间 的 节点 没有 任何 连接 ， 这 
样 对 很 多 需要 依赖 上 下 文 信息 的 问题 就 束手无策 ， 比 如 在 语言 模型 中 ， 
要 预测 下 一 个 词 是 什么 ， 必 须 依赖 于 前 面 的 词 。RNN (Recurrent Neural 
Network， 循 环 神经 网 络 ) 模型 能 较 好 地 利用 上 下 文 信息 ， 它 的 隐藏 层 之 
间 是 直接 连接 的 ， 也 就 是 说 当前 隐藏 层 的 输入 不 仅 包括 当前 输入 层 ， 而 且 
还 包括 先前 的 隐藏 层 ， 如 图 3.25 所 示 ， 它 的 公式 为 
h, = (Wx, + Uhi) V 隐藏 层 
Y, =S Vh,) / 输出 层 





0, = 6, +A 
+E 

































































RNN 的 训练 一 般 使 用 BPTT (BackPropagation Through Time) 算法 ， 
代码 可 以 在 网 上 找到 ”。 但 是 在 误差 计算 的 过 程 中 会 出 现 梯度 爆炸 和 梯度 消 
失 问 题 (论文 《On the Difficulty of Training Recurrent Neural Networks} "P 











®© http://www.wildml.com/2015/09/recurrent-neural-networks-tutorial-part-2-implementing-a- 


language-model-rnn-with-python-numpy-and-theano 
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有 详细 的 证 明 )。 梯 度 爆 炸 问 题 比 较 容 易 解 决 ，Mikolov 提出 了 一 种 很 简单 
的 解决 方案 : 当 梯 度 超过 某 一 个 阐 值 的 时 候 ， 就 给 它 赋 予 一 个 小 的 值 。 至 
于 梯度 消失 问题 (就 是 对 长 期 依赖 问题 处 理 不 好 ， 也 可 以 理解 为 对 较 远 一 
点 的 上 下 文 记忆 不 好 )， 就 需要 有 更 好 的 模型 来 处 理 ， 例 如 ， 接 下 来 要 讲 
的 一 些 变 种 模型 。 

3.5.5.3 ”RNN 变 种 模型 

LSTM (Long-Short Term Memory) 网 络 是 专门 设计 用 来 避免 长 期 依赖 
的 ， 它 可 以 说 是 一 种 优化 的 RNN， 它 和 RNN 的 区 别 就 是 在 隐藏 层 的 设计 。 

LSTM 在 隐藏 层 引 入 了 一 些 新 的 概念 : 细胞 单元 (Cell) 和 门 (Gate), 
细胞 单元 是 利用 先前 的 状态 h,1 和 当前 的 输入 x, 产生 的 新 的 信息 ; 门 其 实 
就 是 一 个 开关 ， 它 决定 哪些 信息 通过 或 者 通过 多 少 ， 就 像 我 们 日 常生 活 
中 门 的 作用 一 样 ， 门 开 了 可 以 通过 ， 门 关 了 不 能 通过 。 它 的 隐藏 层 结构 
如 图 3.26 所 示 。 
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f =W x, +U h RRT, REZ A TB 

0, =8W0x, +U oh, DRET, REED ETRE REE 

i, = (Wx, +U'h 1)1/ 输入 门 ， 决 定 新 的 细胞 单元 的 重要 程度 

Č = tan AW x, +U ha) 新 的 细胞 单元 ， 存 储 了 新 的 信息 
C, = fe Ča +ieG,1/ 用 之 前 的 细胞 单元 和 新 的 细胞 单元 更 新 当前 的 细 

胞 单元 
h, =0,-tanh(C,) // 把 新 的 
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ilf/o, 其 实 可 以 理解 为 是 超 参 数 ， 就 像 线性 回归 中 每 个 变量 前 的 参数 一 
样 ， 它 决定 当前 变量 的 重要 程度 ， 而 在 这 里 ， 这 个 超 参 数 也 是 由 当前 的 输 
入 和 先前 的 状态 共同 决定 的 。 图 中 的 X 和 十 以 及 公式 中 的 。 都 是 逐 点 操作 
符号 。 代 码 可 以 在 网 上 找到 ”。 

GRU (Gated Recurrent Unit) 是 2014 年 的 《Learning Phrase Representations 
using RNN Encoder—Decoder for Statistical Machine Translation》 一 文 提 出 
来 的 一 种 更 简单 的 变种 模型 ， 它 不 但 可 以 有 效 避 免 梯 度 消失 ， 而 且 有 着 比 
LSTM 更 加 简单 的 网 络 结构 ， 它 的 隐藏 层 结构 如 图 3.27 所 示 。 





































































































213.27 

z, =W x, +U ha) /1/ 更 新 门 ， 决 定 先 前 的 状态 有 多 少 会 传输 到 新 的 
状态 

=W x +U hi1) // 重 置 门 ， 决定 先前 的 状态 有 多 少 会 影响 到 新 的 
记忆 单元 

h, = tanh(Wx, + r, Uh, 1) // 新 的 记忆 单元 

h, =(1—2,) 2h, + 2,24 新 的 记忆 单元 和 先前 的 状态 共同 决定 当前 的 状态 

rz 和 LSTM 中 的 门 一 样 ， 可 以 理解 为 是 超 参数 。 

CW-RNN (Clockwork RNN) 是 2014 年 《A Clockwork RNN》 一 文 新 
提出 来 的 一 种 改进 的 RNN 模型 ， 在 原 论文 中 CW-RNN 不 论 从 计算 性 能 还 
是 效果 上 都 好 于 RNN 和 LSTM。CW-RNN 在 隐藏 层 引 入 了 时 钟 频率 来 解 
决 长 期 依赖 问题 。CW-RNN 也 是 由 输入 层 、 隐 藏 层 和 输出 层 组 成 ， 不 同 于 
RNN 的 是 ， 隐 藏 层 的 神经 元 被 划分 为 若干 个 组 ， 设 为 g。 每 一 组 中 的 神经 
































































































































®© https://gist.github.com/neubig/ff2f97d91c9bed820c15 和 https://github.com/Ojoshuaolson 1 /Istm-g/ 
blob/master/LST™M_ g.py。 
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元 个 数 相同 ， 并 且 给 每 一 个 组 分 配 了 一 个 时 钟 周 期 T < 全 ,到 ,下 每 一 


-odg 





























个 组 中 的 所 有 神经 元 都 是 全 连接 ， 但 是 组 j 到 组 i 的 循环 连接 要 满足 T >T, 
假设 时 钟 频率 是 递增 的 从 左 到 右 ， 那 么 组 间 连 接 便 是 从 右 到 左 ， 如 图 3.28 





































































SATIN 
NIAAA 
AAN 























再 看 














下 上 面 RNN 的 计算 公式 ，CW-RNN 中 ， 在 第 t 步 时 ， 只 有 那些 




















满足 (tmodT) = 0 的 隐藏 层 组 才 会 被 执行 。 原 论文 中 了 = 2 …，ie[L…,8， 


即 {1,2,4,8,…}， 因 此 W 和 如 就 被 分 成 了 g 块 











W, |U, 
W =|... Us| ... 
W, |U, 








在 每 一 步 计 算 中 ，W 和 TU 只 有 部 分 组 会 被 执行 ， 其 他 的 都 为 0， 即 : 





W, = 
0, otherwise 


Me for(t mod T,) =0 











对 应 组 的 y 也 才 会 有 输出， 其 他 的 隐藏 层 保留 上 一 步 的 状态 。 也 就 是 
说 ， 周 期 小 的 组 保留 输出 长 期 依赖 信息 ， 而 周期 大 的 组 则 聚焦 在 处 理 当 前 






































局 部 信息 。 
介绍 了 这 么 多 网 络 ， 本 质 上 都 是 
哪 种 最 好 呢 ? 论文 《LSTM: A Search Space Odyssey》 对 各 种 著名 的 变种 网 




















络 进行 了 对 比 ， 其 实 都 差不多 。 





3.5 深度 学 习 














LSTM 是 RNN 的 很 重要 的 优化 ， 那 么 还 有 什么 改进 呢 ? 目前 很 重要 的 
一 个 思想 就 是 Attention-based。 例 如 LSTM 等 在 文本 的 应 用 中 ， 最 终 都 通 
过 LSTM 把 输入 转化 为 一 个 state 向 量 (encoder)， 然 后 对 这 个 state 癌 量 
进行 生成 或 者 其 他 处 理 〈decoder)。 但 是 这 就 有 一 个 很 明显 的 缺点 : context 
武大， 表示 成 固定 的 向 量 后 损失 的 信息 就 越 多 。 而 事实 上 ， 在 decoder 的 
时 候 ， 完 全 可 以 利用 state 向 量 和 已 经 知道 的 context 信息 ， 而 且 并 不 是 所 
J context 信息 都 有 用 ， 只 有 部 分 context 信息 会 对 下 一 状态 产生 影响 ， 
就 是 attention， 选 择 合适 的 context 生成 下 一 状态 。 实 现 中 ，attention 就 是 
一 个 和 context 长 度 一 样 的 向 量 ， 它 的 权重 代表 该 context 对 于 当前 时 刻 的 
重要 程度 。 这 就 是 Attention-based 思想 。 大 致 的 框架 如 图 3.29 Pras, that 
是 在 预测 新 的 词 的 时 候 不 仅 需要 前 一 时 刻 的 词 ， 还 需要 权重 结合 的 输入 序 
列 的 信息 。 
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论文 《Neural Machine Translation by Jointly Learning to Align and Translate} 

















最 先 提出 Attention 思想 ， 如 图 3.30 所 示 ， 作 者 使 用 了 BiRNN Ch, =[hj 5h’ hD, 
但 这 不 是 重点 ， 证 占 是 Aelitat 每 一 步 y， 都 依赖 于 前 一 步 y 和 权重 结 


合 的 输入 。 
Attention 思想 是 一 个 很 重要 的 模型 优化 ， 但 是 模型 角度 的 优化 更 多 

的 是 信息 的 再 分 配 ， 而 从 工业 应 用 的 角度 ， 我 个 人 更 倾向 于 在 模型 中 加 入 

先 验 信息 的 优化 ， 这 样 会 导致 信息 的 增加 。 例 如 论文 《 

(CLSTM) Models for Large Scale NLP Tasks》， 以 后 必然 也 会 出 现 各 种 加 入 

不 同 的 先 验 信息 的 论文 。 
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reo Ye X) =g Wi Si, Ci) , 


exp (ey) 
a= 


LE (ex) ” 


ej-a (Si > h;) 















































深度 学 习 框 架 简 单 清楚 ， 但 是 要 想得到 好 的 模型 (避免 过 拟 合 ， 训 练 
速度 快 等 );， 在 实际 操作 的 时 候 就 会 需要 很 多 的 技巧 ， 这 需 oe 
己 的 任务 来 具体 操作 。 

C1) 正则 化 ， 比 如 LI1 或 者 L2 正则 。 

(2) Dropout， 也 就 是 说 每 次 随机 把 一 些 神经 元 剔除 掉 ， 不 对 它们 进行 更 新 。 

(3) 增加 验证 集 ， 如 果 验 证 集 上 效果 变 差 ， 就 停止 训练 ; 

(4) 增加 并 仔细 筛选 训练 数据 。 

(5) 权重 初始 化 ， 一 般 用 高 斯 分 布 或 者 均匀 分 布 。 

(6) 各 种 调 参 。Batch 的 大 小 、 各 层 神 经 元 的 数量 、dropout 的 比例 以 

(7) 激励 函数 的 选择 ， 比 如 ReLU 等 。 

(8) 在 做 文本 任务 的 时 候 ， 如 果 词 汇 量 太 大 ， 最 后 一 层 计算 Softmax 
的 分 母 时 计算 量 太 大 ， 所 以 对 Softmax 有 一 些 优化 方法 ， 如 Hierarchical 
softmax、Noise Contrastive Estimation, Approximate softmax， 我 个 人 更 嘉 
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Xx Approximate softmax 方法 。 
3.5.54 CNN 


CNN (Convolutional Neural Network， 卷 积 神经 网 络 ) 是 一 个 在 图 像 
领域 很 成 功 的 一 个 模型 ， 不 同 于 BP 这 种 全 连接 神经 网 络 ，CNN 通过 卷 积 
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层 来 蔡 代 全 连接 ， 这 样 的 好 处 是 可 以 感知 局 部 区 域 和 权重 共享 ， 在 卷 积 层 
之 后 是 一 个 下 采样 层 (Csubsampling 或 者 叫 pooling) ， 下 采样 层 可 以 降低 特 
征 维 数 ， 避 免 过 拟 合 ， 在 经 过 一 系列 的 卷 积 层 和 下 采样 层 交 蔡 后 ， 相 当 于 
提取 出 了 样本 的 抽象 特征 ， 然 后 是 全 连接 层 输出 最 终 的 结果 ， 如 图 3.31 所 
Axe CNN 的 两 个 核心 卷 积 层 和 下 采样 层 的 计算 示例 如 图 3.32 所 示 ， 一 看 
就 明白 了 。 











C3: maps 93, maps F5: layer 
S2: maps 32@10x10 32@5x5 800 F6: layer 
16@14x14 256 


C1: feature maps 
16@28x28 








output 
43 









convolutions | convolutions subsampling reshape 
subsampling full-connected 
MLP 
convolution: x*=f ( Ei), subsampling: x°=f (Bédown (x57) +b) , 
ey 


图 3.31 


max pooling 
— r 


mean pooling 





convolution pooling 


图 3.32 





CNN 在 图 像 上 取得 了 很 好 的 效果 ， 好 多 人 也 把 CNN 用 在 文本 上 ， 比 
如 文本 分 类 ， 句 子 表 示 等 任务 上 ， 也 有 一 定 的 效果 。 

3.5.5.5 GAN 

GAN (Generative Adversarial Networks， 生 成 对 抗 网 络 ) 是 2014 年 
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由 Bengio 实验 室 新 提出 的 一 种 思想 很 好 的 模型 (参见 论文 《Generative 
Adversarial Nets》) ， 所 以 在 这 里 也 简单 介绍 一 下 ， 如 图 3.33 Pras. GAN 需 
要 同时 训练 两 个 网 络 : G (Generator， 生 成 网 络 ) 和 了 D (Discriminator， 判 
别 网 络 )。G 网 络 输入 一 个 随机 噪声 z， 生 成 一 个 伪 图 片 ， 记 为 GCC;0) ; D 
网 络 它 对 输入 的 图 片 x 判别 真 伪 ， 记 为 D(x;0))， 在 训练 过 程 中 ，G 的 目标 
就 是 尽量 生成 真实 的 图 片 去 欺 驴 D， 而 D 的 目标 就 是 尽量 把 G 生成 的 图 片 
和 真实 的 图 片区 分 开 来 。 其 实 ，G 和 DD 就 构成 了 一 个 动态 的 “博弈 过 程 ” 
不 断 调整 D 和 G， 直 到 G 可 以 生成 足以 “以 假 乱 真 ”的 图 片 G(z), D 难 
以 判定 G 生成 的 图 片 究竟 是 不 是 真实 的 ， 也 就 是 说 首先 要 极 大 化 D 的 判 
别 能 力 ， 然 后 极 小 化 将 G 的 输出 判别 为 伪 图 片 的 概率 。 这 样 我 们 得 到 了 一 
个 生成 式 的 模型 G， 它 可 以 用 来 生成 图 片 。 所 以 该 模型 的 目标 函数 就 是 















































mingmax LY [logpGx’) + log(1— D(G(z' )| 


i=l 


m 








Latent random variable 





GAN 训练 的 时 候 分 两 步 : 
1. 更 新 0,( 梯 度 上 升 法 ) 
fori=1:k 
KERALA x=x'x, x 和 伪 图 片 数据 z=z,z，,z 


H Va =D [logD(x)+1log(-D(G(z")))] 

















2. 更 新 0。( 梯 度 下 降 法 ) 
采样 伪 图 片 数据 z= 了 2 


计算 ， Vo, =D logt- DCG) 

论文 《Generative Adversarial Networks:An auerview) 总 结 得 很 不 错 。 
这 个 PPT "总结 了 训练 GAN 的 一 些 技巧 ， 非 常 有 借鉴 意义 。GAN 提出 的 
背景 是 为 了 更 好 地 分 类 加 过 噪声 的 图 片 问 题 ， 它 在 视觉 上 有 不 错 的 效果 ， 
而 且 这 个 模型 的 思想 是 非常 棒 的 ， 但 是 在 文本 上 目前 还 没 见 明显 的 作用 。 
我 个 人 觉得 在 生成 式 对 话 上 还 是 有 可 能 提升 的 ， 相 信 很 多 人 会 不 断 进行 
尝试 。 

3.5.5.6 深度 学 习 模型 的 一 些 应 用 

LSTM 模型 可 以 很 好 地 利用 上 下 文 ， 所 以 它 在 语音 识别 、 图 像 处 理 等 
领域 都 有 一 些 不 错 的 效果 ， 在 NLP 领域 最 多 的 是 在 机 器 翻译 、 摘 要 提取 、 
阅读 理解 和 对 话 系 统 等 这 几 个 领域 的 党 试 ， 这 几 个 领域 其 实 都 是 自然 语 
言 生 成 问题 ， 最 终结 果 都 是 输出 一 句 话 ( 这 是 深度 学 习 和 传统 模型 思想 
有 很 大 差异 的 地 方 )， 当 然 还 有 在 分 类 任务 和 序列 标注 (前 面 介绍 过 了 ) 
以 及 搜索 引擎 和 推荐 系统 (后 面 会 介绍 〉 中 的 尝试 ， 我 们 来 介绍 几 个 具体 
的 应 用 。 

1. 对 话 模 型 

机 器 翻译 的 任务 就 是 给 定 一 句 话 ， 然 后 生成 另 一 句 话 ， 这 样 就 可 以 使 
用 LSTM 模型 (NMT, Neural Machine Translation ) ， 如 图 3.34 所 示 (该 图 
源 自 论文 《Sequence to Sequence Learning with Neural Networks》) ， 首 先 使 
用 一 个 RNN 模型 把 输入 句子 “ABC” 表 示 成 一 个 向 量 ， 然 后 把 这 个 向 量 
作为 另 一 个 RNN 模型 的 输入 ， 最 后 使 用 语言 模型 生成 目标 句子 “WXYZ”。 

有 些 人 使 用 这 种 机 器 翻译 的 思路 来 做 对 话 ， 例 如 ， 论 文 《 
Conversational Model》 或 《Neural Responding Machine for Short-Text Conversation》， 
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®© https://github.com/soumith/talks/blob/master/2017-ICCV_Venice/How_To_Train a GAN.pdf 
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因为 简单 的 来 看 ， 对 话 也 是 给 定 一 句 话 ， 生 成 一 句 话 作为 回复 ， 思 路 大 致 
是 一 样 的 。 











W X Y Z <eos> 
A B C <eos> WwW X X Z 
—= _ —= _ 
Context Reply 
(Previous Sentences) 
pr 
DOs os yr’ |x way Xp) = TI» lv, Vis s Yer) 
a=] 
213.34 

















但 是 上 面 的 工作 并 没有 把 上 下 文 输入 到 模型 中 ， 所 以 这 两 篇 文章 
«Attention with Intention for a Neural Network Conversation Model》 和 《A 





Neural Network Approach to Context-Sensitive Generation of Conversational 
Responses》 就 把 上 下 文 信息 以 不 同 的 方式 输入 到 了 模型 中 ， 如 图 3.35 和 
图 3.36 所 示 。 但 是 对 输入 多 少 轮 的 上 下 文 合适 并 没有 很 好 地 解释 ， 而 利用 
多 少 轮 的 上 下 文 信息 必然 会 对 当前 的 输入 有 很 重要 的 影响 ， 这 就 会 引出 男 
一 个 问题 : 判断 某 句 子 是 否 话题 结束 ， 也 就 是 说 当 某 一 轮 表 示 某 一 个 话题 
结束 了 ， 它 之 前 的 上 下 文 就 可 以 不 用 利用 进来 。 

(Foret 


q Ab 
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4 K on k=o(ki WF) for e=2, ..., L 


























图 3.35 Pk 表示 每 一 轮 ， 图 中 是 三 轮 对 话 的 示例 图 ，encoder network 
是 对 输入 的 表示 ，intention network 就 是 对 意图 的 表示 ， 它 依赖 于 前 一 轮 的 
输出 和 当前 轮 的 输入 ，decoder network 就 是 回复 的 生成 ， 依 赖 于 前 一 轮 的 
意图 和 前 一 轮 的 输入 。 

图 3.36 中 (a) 模型 直接 将 上 下 文 c 和 当前 输入 m 连接 成 一 个 句子 s 
作为 RNN 的 输入 训练 ， 自 然 对 长 上 下 文 不 好 ; Cb) 模型 是 将 上 下 文 c 和 
当前 输入 m 一 块 儿 表 示 成 一 个 b,,,， 然 后 再 舱 入 到 模型 中 ， 这 样 并 没有 区 
分 上 下 文 和 当前 输入 的 作用 ; (ec) 模型 是 将 上 下 文 c 和 当前 输入 m 分 别 表 
IRER b, Alb,» PRIS EKA BURA! FP 

这 种 端 对 端的 方法 模拟 对 话 时 有 一 些 缺 陷 ， 例 如 前 后 回答 不 一 致 、 只 
能 学 习 到 一 些 泛泛 的 高 频 回复 (“我 不 知道 *”“ 了 呵呵 ”等 )。 为 了 提高 
复 的 多 样 性 ， 有 些 人 就 开始 优化 。 论 文 《A Diversity-Promoting Objective 
Function for Neural Conversation Models》 中 ， 作 者 不 在 使 用 原来 的 语言 模 
型 作为 目标 函数 ， 使 用 MMI (Maximum Mutual Information) 作为 目标 函 
数 来 提高 多 样 性 ， 论文 《Sequence to Backward and Forward Sequences: A 
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Content-Introducing Approach to Generative Short-Text Conversation》 中 ， 作 
者 在 生成 回复 的 时 候 ， 首 先 使 用 PMI (Pointwise Mutial Information) 预测 
一 个 名 词 ， 然 后 使 用 两 个 网 络 分 别 生成 名 词 前 半 部 分 和 后 半 部 分 ， 如 图 
3.37 所 示 。 论 文 《Deep Reinforcement Learning for Dialogue Generation} "F, 
作者 引入 了 增强 学 习 ， 他 有 ) 产生 的 回复 尽 可 能 不 
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E 


要 有 高 频 无 意义 回复 (作者 收集 了 一 些 高 频 回复 ); (2 尽量 不 要 和 之 前 的 
复 重复 ; (3) 使 用 MI 尽量 使 回复 更 有 相关 性 。 论 文 《A Persona-Based Neural 
Conversation Model》 中 ， 作 者 把 用 户 属性 引入 到 了 模型 中 。 论 文 《Incorporating 
Unstructured Textual Knowledge Sources into Neural Dialogue Systems》 中 ， 
作者 把 知识 引入 到 了 模型 中 。 论 文 《On-line Active Reward Learning for Policy 
Optimisation in Spoken Dialogue Systems》 中 ， 作 者 引入 在 线 反馈 来 优化 对 
话 策略 。 我 相信 和 后续 还 会 有 更 多 的 模型 出 来 。 

































































where 
(a) Keyword prediction are 
PMI 
you Step I 
from PMI statistics 


1 from am I <eos> 
(b) Backward sequence 





where are you from ___ sm osaka from am I Step II 
i seq2BF 
Japan<eos> model 


(c) Forward sequence 


where are you from “YI am from osaka japan 
J N J 





BA Y 
Query Reply 
13.37 























机 器 翻译 问题 是 有 明确 的 目标 ， 也 就 是 翻译 的 句子 几乎 是 确定 的 ; QA 
问题 〈 更 多 的 是 知识 性 问答 ) 也 是 有 明确 的 答案 ， 而 对 话 问题 则 不 同 ， 回 
复 不 但 取决 于 对 方 说 的 话 ， 还 依赖 于 语 境 以 及 回复 人 的 知识 、 经 验 、 性 格 
等 ， 同 一 句 话 可 以 有 许多 种 回复 ， 也 就 是 说 目标 函数 不 清晰 ， 所 以 这 种 端 
对 端的 方法 模拟 对 话 必 然 有 缺陷 。 

2. 阅读 理解 模型 

接着 说 说 阅读 理解 式 的 QA 问题 ， 给 定 一 些 事实 和 一 个 问题 ， 输 出 正 
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3.5 深度 学 习 














确 答 案 ， 目 前 能 用 模型 回答 的 问题 比较 简单 ， 大 多 答案 都 是 一 个 词 ， 例 
如 ,“ 为 什么 ”类 型 需要 总 结 和 推理 的 机 器 还 是 很 难 解决 。 现 在 主流 的 解 
决 方案 是 利用 IR 技术 ， 例 如 TBM Watson， 先 从 大 量 文档 里 面 使 用 项 技 
术 检 索 出 候选 集 ， 然 后 使 用 一 些 NLP 技术 抽 选 出 最 终 答案 。 论 文 《Deep 
Unordered Composition Rivals Syntactic Methods for Text Classification》 提 到 
芷 者 的 模型 效果 不 如 基于 wikipedia 的 IR 方法 。 

Facebook 在 论文 《Memory Network》 中 提出 了 一 种 简单 数据 集 上 
的 解决 思路 ， 它 的 核心 思路 和 主流 解决 方案 是 一 样 的 ， 先 找到 候选 集 ， 
然后 使 用 模型 训练 出 最 佳 答案 ,不同 的 是 使 用 神 网 络 表 示 候 选集 并 抽取 
答案 。Memory network 就 是 在 网 络 中 加 入 了 Memory 组 件 ， 在 自己 构 
建 的 简单 的 故事 中 回答 问题 。 它 包括 五 个 组 件 : 记忆 单元 M ( 它 是 一 个 
向 量 集合 m，facebook 的 训练 集 的 故事 都 是 由 若干 句子 组 成 ， 输 入 也 是 
句子 ， 所 以 论文 中 使 用 整个 句子 作为 输入 ， 也 就 是 把 整个 句子 映射 成 向 
量 存 储 到 未 被 分 配 的 记忆 单元 中 ， 论 文 也 讨论 了 不 是 整个 句子 ， 而 是 连 
续 单 词 的 方法 ); 工 组 件 〈 将 输入 句子 映射 成 向 量 表示 x); G 组 件 〈 更 新 
记忆 单元 中 的 信息 ， 论 文中 就 是 直接 存储 新 向 量 到 记忆 单元 ， 老 的 记忆 
单元 并 没有 更 新 ); O 组 件 〈 在 记忆 单元 中 根据 输入 找到 潜在 的 输出 向 
量 m,， 它 可 以 是 一 个 也 可 以 是 多 个 ， 论 文中 是 两 个 。 这 个 就 是 相当 于 
检索 的 过 程 ， 使 用 matchy) = x U Uy 公式 找到 和 输入 向 量 x 最 匹配 的 
某 一 个 记忆 单元 m。， 如 果 记 忆 单 元 太 大 的 话 ， 就 需要 一 些 技巧 加 速 查 
找 ， 比 如 使 用 Hash 的 方法 等 ); 及 组 件 〈 将 输出 向 量 转化 为 可 读 性 的 文 
本 答案 +， 既 然 知 道 了 输入 向 量 x 和 输出 向 量 m。 了 ， 那 么 其 实 就 是 使 用 
同样 的 match 算法 找到 和 [xm,] 最 匹配 的 一 个 单词 w 作为 答案 r， 这 两 
个 match 公式 中 的 U 就 是 需要 学 习 的 参数 。 其 实 根据 [x,m,] 来 预测 最 
终 答案 r， 这 就 是 类 似 于 语言 模型 ， 计 算 p(r|[x,m,]) 

来 训练 )。 
在 另 一 篇 论文 《End-To-End Memory Networks》 中 ， 其 采用 的 模型 更 
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加 简单 简洁 
知道 潜在 的 
是 固定 的 
A 和 B 分 别 























， 如 
事实 


alin! 








p:= softmax(u'm) ; 





向 量 
训练 模型 。 





图 3.38 所 示 ， 
的 支撑 点 (O 旨 
一 个 值 ， 论 文中 是 50) 和 问题 
把 x 和 q 映射 成 m 和 u， 然 后 就 可 以 计算 x% A q 的 相关 度 
每 个 x 又 对 应 一 
就 是 o= > pic, MANE 





日 件 )。 给 定 memory 








RA q> 给 出 答案 a> 





个 输出 向 量 








案 就 是 & =softmax(W(o+u)), i 
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Embedding A 
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在 论文 《Teaching Machines to Read and Comprehend》 中 ， 作 者 
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A E] memory network 是 不 同 的 ， 和 问题 (都 经 过 


连续 地 输入 到 LSTM 中 ， 然 后 预测 答 
图 3.39 所 示 ，(c) 就 是 双 层 
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它 同 Memory Network 的 区 别 在 于 不 需要 
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首先 使 用 和 矩阵 
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的 输 
NLP 处 理 后 ) 








。 他 构造 了 三 个 模型 ， 如 
(a) 是 在 LSTM 上 引入 了 




















attention 机 制 ， 图 中 的 s(t) 就 是 attention 向 量 ， 用 来 表示 该 y(t) 是 否 
BE, s(t) 是 由 yt) 和 uu 共同 决定 的 (s(t)=exp(W'tanh(W,y(t)+ Wsu)))， 
最 终 的 ian BLA r 和 共同 决定 (g=tanh(Wsar+ Wsu)); Cb) 相 比 于 
(a) 复杂 一 点 ， 它 在 读 入 Query 

document， 这 样 就 多 产生 Query 长 度 个 r， 最 终 的 向 量 g 就 由 这 些 r 和 u 
共同 决定 。 
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s(1)y(1) GW SIE) 








Mary went to England X visited England 
(a) Attentive Reader 











Mary went to England X visited England 


(b) Impatient Teader 


Plald, 9)~exp( Wa)g(q, q)), staEry, 








Mary went to England II X visited England 
(c) A two layer Deep LSRM Reader with the question 
encoded following the document 


图 3.39 
«Text Understanding with The Attention Sum Reader Network》 论 文 的 思 
路 如 图 3.40 所 示 ， 它 首先 将 文档 经 过 双向 ， 把 每 个 词 表 示 成 一 个 向 
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量 ， 然 后 把 问题 经 过 双向 GRU 表示 成 的 向 量 与 文档 中 的 每 个 词 进行 点 积 
运算 ， 概 率 最 高 的 就 是 答案 。 可 以 看 出 ， 这 个 方法 就 是 找 答案 是 一 个 词 或 
者 一 个 实体 的 问题 ， 而 且 模型 很 简单 。 


| Document Question 


| and | Putin ee | said | Obama | in | Prague XXXXX visited | Prague 


embeddings se 


Recurrent 
neural 
networks 


















































Dot products 


Softmax s; 
over word 
document 


Probability of = 
the answer P (Obamalq, d) = SES +S; 
i€] (Obama, d) 

















3. 匹配 模型 

在 问答 系统 中 ， 我 们 要 找到 最 精确 的 答案 ， 所 以 需要 计算 问题 和 答案 
的 匹配 程度 ， 因 为 深度 学 习 还 有 一 类 探索 方向 是 使 用 深度 学 习 对 候选 答案 做 
匹配 ， 例 如 论文 《The Ubuntu Dialogue Corpus: A Large Dataset for Research in 






































Unstructured Multi-Turn Dialogue Systems》《Deep Learning for Answer Sentence 
Selection:A Study and An Oten Task》《Applying Deep Learning to Answer 
Selection:A Study and An Oten Task》《LSTM-Based Deep Learning Models for 
Non-factoid Answer Selection) 和 《ABCNN: Attention-Based Convolutional 





Neural Network for Modeling Sentence Pairs》 等 ， 它 们 的 思路 就 是 把 question 
使 用 RNN/CNN 转化 成 一 个 向 量 0,， 然 后 使 用 另 一 个 RNN/CNN 同样 把 
answer 转化 成 一 个 向 量 0。， 然 后 就 可 以 计算 这 两 个 向 量 的 
图 3.41 上 图 所 示 。 说 简单 点 ， 就 是 计算 两 个 对 象 的 语义 相似 度 〈 这 个 在 
后 面 的 章节 还 会 详细 介绍 ， 这 个 思路 还 可 以 用 在 搜索 引擎 排序 上 )。 论 文 


























3.5 深度 学 习 





{Open Question Answering with Weakly Supervised Embedding Models》 使 用 
的 思路 也 是 一 样 的 ， 不 同 的 是 ， 它 解决 的 问题 是 基于 结构 化 知识 (三 元 组 ) 
的 问题 ， 所 以 作者 使 用 三 元 组 构造 成 能 描述 该 三 元 组 含义 的 句子 (比如 三 元 
组 < 张 三 ， 老 婆 ， 李 四 >， 构造 成 句子 “ 张 三 的 老婆 是 李 四 ”) 当 作 answer 
来 训练 模型 。 而 《Question Answering with Subgraph Embeddings》 是 将 问 
题 和 问题 中 实体 关联 的 子 图 分 别 表示 成 向 量 来 计算 ， 如 图 3.41 下 图 所 示 。 
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Bingry encoding of 
the subgraph y (a) 

















这 三 类 方法 是 深度 学 习 很 典型 的 尝试 ， 从 效果 上 看 ， 完 全 使 用 深度 学 习 模 




















型 的 方法 在 不 同 的 任务 中 有 不 同 的 效果 ， 还 有 很 多 值得 进一步 去 探索 的 地 方 。 
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总 之 ， 深 度 学 习 也 是 机 器 学 习 模型 ， 凡 是 能 使 用 机 器 学 习 的 地 方 都 能 
尝试 深度 学 习 。 深 度 学 习 有 很 多 的 模型 ， 从 最 开始 的 Auto-Encoders、Sparse 
Coding, RBMs, DBNs 等 模型 ， 到 现在 使 用 较 多 的 DNN、CNN、RNN、GAN.、 
Seq2Seq 等 模型 ， 它 们 在 图 像 和 语音 取得 了 不 错 的 成 绩 ， 在 自然 语言 处 理 的 
外用 上 也 在 积极 尝试 。 笔 者 也 非常 期 待 深度 学 习 能 在 文本 任务 上 有 大 的 突破 。 
































3.6 ”其 他 模型 


3.6.1 KNN 






























































KNN (k 最 近邻 ) 算法 的 思想 比较 简单 : 如 果 一 个 样本 在 特征 空间 中 
的 Kk 个 最 相似 《〈 即 特征 空间 中 “距离 ”最 近 ) 的 样本 中 的 大 多 数 属于 某 一 
个 类 别 ， 则 该 样本 也 属于 这 个 类 别 。 这 是 一 种 监督 学 习 的 分 类 算法 。 





3.6.2 k-means 























k-means (k 均值 ) 聚 类 算法 是 假定 在 欧式 空间 下 ， 并 且 k 是 事先 确定 的 。 























首先 随机 选取 个 质心 (一 般 会 选择 尽 可 能 相互 远 的 点 )， 然 后 将 各 个 数据 项 





分 配给 “距离 ”最 近 的 质心 点 ， 分 配 后 ， 该 类 下 的 质心 就 会 要 更 新 例如 ， 变 
成 该 类 下 所 有 节点 的 平均 值 )。 该 分 配 过 程 一 直下 去 ， 直 到 聚 类 结果 不 再 变化 。 














3.6.3” 树 模型 /集成 学 习 


























DT ( Decision Tree， 决 策 树 ) 
决策 树 是 一 个 树 结 构 。 其 每 个 非 叶子 节点 表示 一 个 特征 属性 上 的 判 








断 ， 每 个 分 支 代表 这 个 特征 





Rt 








FE 在 茶 个 值 域 上 的 输出 ， 而 每 个 叶 节 点 存放 








一 个 类 别 。 使 用 决策 树 进行 决策 的 过 程 就 是 从 根 节点 开始 ， 判 断 待 分 类 项 
中 相应 的 特征 属性 ， 并 按照 其 值 选择 输出 分 支 ， 直 到 到 达 叶 子 节 点 ， 将 叶 
子 节 点 存放 的 类 别 作为 决策 结果 。 其 实 就 是 从 跟 节 点 开始 ， 进 行 判 
断 ， 一 直到 叶子 布点， 束 得 到 了 分 类 结果 。 














决策 树 的 构造 ， 也 就 是 如 何 根据 特征 属 






































i, 


生 确定 每 个 分 支 ， 指 导 思 想 就 

















是 : 这 个 分 支 一 定 要 能 最 大 化 的 区 分 不 同类 。 为 了 确定 哪个 属性 最 适合 用 


来 拆 分 ，ID3 


是 指 该 特征 对 数据 样本 的 分 类 的 不 确定 性 的 减少 的 程度 ， 也 就 是 说 信息 增 


HURK ADF A 


针对 每 个 特征 


3.6 ”其 他 模型 
































算法 会 计算 相应 的 信息 增益 ， 所 谓 某 个 特征 的 信息 增益 ， 就 
























































FE 具有 更 强 的 区 分 能 力 ， 这 一 点 前 面 已 经 介绍 过 。ID3 算法 会 
属性 计算 相应 的 信息 增益 ， 然 后 从 中 选 出 信息 增益 最 大 的 特 












































征 属性 来 划分 子 树 。C4.5 算法 则 使 用 的 是 信息 增益 比 ， 信 息 增 益 比 是 在 信 











县 增益 的 基础 上 除了 一 项 拆 分 信息 ， 这 样 可 以 有 效 控制 增益 过 大 的 问题 。 


Bagging 














Bagging 和 Boosting 是 典型 的 集成 学 习 模型 。Bagging 算法 的 思想 非常 


简单 ， 它 从 训 
这 些 训练 集 是 


























| 练 集中 有 放 回 的 采样 N 个 新 训练 集 (有 放 回 的 意思 就 是 说 ， 




















:可 能 重复 的 )， 然 后 训练 出 N 个 弱 分 类 器 ， 然 后 用 多 数 投票 














的 方法 来 决定 最 终 的 类 别 。 随 机 森林 是 Bagging 算法 的 升级 版 ， 它 首先 使 
用 了 决策 树 作 为 弱 分 类 器 ， 其 次 在 训练 决策 树 的 时 候 并 不 是 在 所 有 的 M 个 
特征 中 选择 一 个 最 优 的 特征 来 做 决策 树 的 左右 子 树 划 分 ， 而 是 随机 选择 节 
点 上 的 一 部 分 特征 m (m<M)， 然 后 在 这 m 个 特征 中 ， 选 择 一 个 最 优 的 
特征 来 做 决策 树 的 左右 子 树 划分 。 也 就 是 说 随机 森林 在 训练 集 和 特征 上 都 
做 了 随机 选择 ， 所 以 相 比 Bagging 算法 更 不 容易 过 拟 合 。 





Boosting 


Boosting 
























































算法 的 思想 也 非常 简单 ， 它 也 将 若干 个 弱 分 类 器 《或 者 叫 弱 





模型 ) 组合 起 来 ， 形 成 一 个 强大 的 强 分 类 器 (或 者 叫 强 模型 )。 和 Bagging 
算法 不 同 的 是 ，Bagging 的 弱 分 类 器 的 生成 是 并 行 的 ， 而 Boosting 是 串 行 






































的 ， 后 一 个 分 类 器 取决 于 前 一 个 分 类 器 分 错 的 样本 ， 所 以 效果 更 好 一 点 ， 
其 中 最 流行 的 一 种 就 是 AdaBoost 算法 。 在 此 算法 中 ， 每 个 样本 都 被 赋予 


























一 个 权重 《初始 时 权重 都 相同 )， 代 表 该 样本 被 某 个 弱 分 类 器 选 入 训练 集 
的 概率 ， 如 果 某 个 样本 点 已 经 被 准确 地 分 类 ， 那 么 在 构造 下 一 个 弱 分 类 器 
时 ， 它 被 选中 的 概率 就 被 降低 。 相 反 ， 如 果 某 个 样本 没有 被 准确 地 分 类 ， 
那么 它 的 权重 就 会 提高 ， 意 味 着 该 样本 将 更 大 机 会 的 进入 下 一 个 弱 分 类 器 
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的 训练 集 ， 就 这 样 经 过 工 次 循环 ， 就 得 到 了 T 工 个 弱 分 类 器 ， 把 这 工 个 弱 分 
类 器 按 一 定 的 权重 登 起 来 就 得 到 了 最 终 的 强 分 类 器 模型 。 

GBDT ( Gradient Boosting Decision Tree ) 

GBDT 是 Friedman 1999 年 在 《Greedy Function Approximation: A 
Gradient Boosting Machine》 中 提出 来 的 。 要 想 理解 GBDT 算法 ， 就 要 知道 
两 个 概念 Gradient Boosting 和 Boosting Decision Tree. Gradient Boosting 与 
传统 Boosting 的 区 别 是 ， 每 一 次 的 计算 是 为 了 减少 上 一 次 弱 模 型 的 残 差 ， 
而 为 了 消除 残 差 ， 我 们 可 以 在 残 差 减少 的 梯度 (Gradient) 方向 上 建立 一 
个 新 的 弱 模 型 。 也 就 是 说 ，Gradient Boosting 中 ， 每 个 新 的 弱 模 型 的 建立 
是 为 了 使 得 之 前 弱 模 型 的 残 差 往 梯 度 方向 减少 ， 这 与 传统 Boosting 对 样本 
直接 进行 加 权 有 着 很 大 的 区 别 。Boosting Decision Tree 和 传统 Boosting 的 
最 大 区 别 是 其 中 的 弱 分 类 器 〈 或 者 叫 弱 模型 ) 是 一 个 决策 树 ， 在 GBDT 中 
这 个 决策 树 是 回归 树 ， 而 不 是 分 类 树 ， 下 面 来 大 致 解释 下 这 个 模型 。 































































































N 
1. 初始 化 : fox) =argmin, > ,L(y;,7) 
2. form=1toM: i 
(a) fori= 1,2,…,N, 1+ (MAE) : 


r =- 2, f] 
á FC) dee, 


Cb) A(x.) WAS BABS, 75 BS mB A Se DK SR 
Ri abel, 


(c) for {=1,2,...,J,. HE GR PME) : 


Yim =argmin, > Lif. )+Y 


XER im 
d) ER a O >, Ym (om) 
3. 输出 模型 f(x)= fi (x) = FO) 
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其 中 h(x) = 了 Yjm1(x E Rm EA RD, LEK 
函数 〈 还 记得 前 面 讲 的 损失 函数 吗 ) ，rw 就 是 梯度 ， 看 到 了 吧 ， 中 间 就 是 
用 梯度 (严格 说 是 负 梯 度 ) 来 建立 回归 树 的 ， 也 就 是 说 GBDT 其 实 就 是 在 
前 向 分 布 算法 (Forward stagewise additive modeling) 上 用 了 人 负 梯度 来 建立 
回归 树 。 更 多 细节 和 应 用 可 以 参考 论文 《Greedy Function Approximation: 
A Gradient Boosting Machine) 和 《Web-Search Ranking with Initialized Gradient 
Boosted Regression Trees). GBDT 模型 一 方面 可 以 作为 单独 的 模型 来 解决 
一 些 分 类 或 者 回归 问题 ， 一 方面 可 以 把 GBDT 模型 学 习 到 的 树 当 做 特征 融 
合 到 其 他 模型 中 来 使 用 。 具 体 做 法 就 是 ， 先 用 已 有 特征 训练 一 个 GBDT 模 
型 ， 然 后 利用 GBDT 模型 学 习 到 的 树 来 构造 新 特征 ， 最 后 把 这 些 新 特征 加 
入 原 有 特征 一 起 训练 模型 〈 比 如 LR 模型 )。 其 中 构造 的 新 特征 向 量 是 二 值 
的 ， 它 的 长 度 等 于 GBDT 模型 里 所 有 树 包 含 的 叶子 节点 数 之 和 。 向 量 中 的 
每 个 元 素 对 应 于 GBDT 模型 中 树 的 叶子 节点 。 当 一 个 样本 点 通过 某 棵 树 最 
终 落 在 这 棵 树 的 一 个 叶子 节点 上 ， 那 么 在 新 特征 向 量 中 这 个 叶子 节点 对 应 
的 元 素 值 为 1， 而 这 棵 树 的 其 他 叶子 节点 对 应 的 元 素 值 为 0。 
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3.6.4 SVM 


自从 Cortes 和 Vapnik F 1995 年 提出 来 SVM (Support Vector Machine, 
支持 向 量 机 〉 以后， 由 于 SVM 完备 的 理论 背景 ， 可 以 从 线性 可 分 扩展 到 
线性 不 可 分 的 情况 ， 效 果 也 很 不 错 ， 它 逐渐 流行 起 来 了 。SVM 是 一 个 很 经 
典 的 有 监督 分 类 模型 。 

SVM 既然 是 一 个 机 器 学 习 模型 ， 那 么 它 就 会 有 目标 函数 和 约束 条 件 ， 
如 图 3.42 所 示 ， 蓝 色 的 是 负 样 本 点 ， 都 满足 w:x+b 科 -1 红色 的 是 正 样 
本 点 ， 都 满足 w:x+b 关 1， 中 间 的 红线 是 分 类 面 w:x+b=0， 那 么 要 想 
使 得 红色 和 赣 色 分 的 越 好 ， 就 要 使 正 负 样 本 线 上 的 点 ( 正 负 样本 线 上 的 
点 都 分 开 了 ， 那 么 它们 两 侧 的 点 自然 也 分 开 了 )〉 离 分 类 面 越 远 越 好 ， 即 
(点 到 面 的 距离 公式 ): 2x|w x+bl/|lwl, XAAlw xt+b| 1 (因为 是 
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在 正 负 样 本 线 w:x+b=+l 上 )， 所 以 它 的 优化 目标 函数 就 是 最 大 化 几何 
W/w (相当 于 最 小 化 |w 上 /2)， 它 的 约束 条 件 就 是 样本 点 必须 在 
负 样 本 线 w:x+b= 一 1 和 正 样本 线 w:x+b=+1 的 两 人 出 ， 不 能 落 入 两 者 中 
J, BH 








miny p Jw /2 
s.t. y(w-x, +b) 21 (i=1..N) 
但 是 样本 集 免 不 了 会 有 噪声 ， 也 就 是 会 有 样本 不 满足 约束 条 件 ， 落 入 
了 正 负 样本 线 之 间 ， 因 此 就 要 引入 一 个 松弛 变量 ， 允 许 一 些 样 本 不 满足 约 
束 条 件 ， 但 是 要 惩罚 ， 这 样 整 个 最 优化 函数 就 又 变 了 ， 即 












































miny se |w /2+C ye 
i=1..N 
st. y(w-x,+b)2l-e, (=1.N) 
ea > 0 (=1.N 


w-xtb=-1  w-x+tb=0 





Negative objects Negative objects 
(y=) (y=) 





























现在 SVM 求解 线性 分 类 没什么 问题 了 ， 那 么 如 果 线 性 方法 无 法 区 分 
M? 如 果 将 线性 无 法 区 分 的 问题 映射 到 高 维 空间 (x-> 8(x))， 然 后 在 高 维 
空间 可 以 线性 区 分 的 话 ， 那 就 可 以 同样 使 用 之 前 的 线性 方法 了 如 图 3.43 
所 示 )， 即 



































2 
min, p || /2 


st. ( @( )+b)>1 ( LN) 
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KEARAH, DA AES Td el GTS BRT IT ZB aK R HE 
的 对 偶 问 题 吗 ? ) 来 求解 ， 最 后 就 转化 为 下 面 的 最 优化 问题 了 
| 
ming = Dy D2) A) — Dia 
i=1..Ni=1..N i=1..N 
s.t. ` ay; =0 


C2a,20 (i=1..N) 

问题 来 了 ， 如 何 从 低 维 空间 映射 到 高 维 空 间 呢 ? 也 就 是 G(X) 如何 选取 ? 而 

且 还 要 在 高 维 空间 计算 (x;): V(X;)。 这 时 就 要 引入 核 函数 ， 它 的 作用 就 是 把 两 
个 低 维 空间 的 向 量 映 射 到 高 维 空间 ， 而 且 同 时 把 它们 在 高 维 空间 里 的 向 量 内 积 
值 都 算 好 了 ， 也 就 是 核 函 数 K(x;,x;) = G(x;) .G(x;)。 一 个 函数 干 了 两 件 事 ， 先 

























































































映 冉 到 高 维 空间 然后 计算 好 了 内 积 ， 使 得 我 们 不 用 关心 高 维 空间 到 底 是 什么 
了 ， 因 为 我 们 直接 通过 核 函 数 拿 到 了 结果 。 这 样 ， 在 核 函 数 K(xi,xj) 给 定 的 





条 件 下 ， 可 以 利用 求解 线性 分 类 问题 的 方法 求解 非 线 性 分 类 问题 。 












































那么 有 了 最 优化 模型 ， 而 且 是 个 凸 二 次 规划 问题 ， 就 可 以 使 用 SMO 算 
法 求解 了 。SMO 算法 其 实 就 是 分 而 治之 的 思想 。SVM 具体 细节 可 以 参考 

















相关 论文 。 论 文 《Support-Vector Networks》 是 SVM 开创 原 论文 , 《A Gentle 
Introduction to Support Vector Machines in Biomedicine 
结 一 下 ， 前 面 介 绍 了 很 多 具体 的 机 器 学 习 方法 。 机 器 学 习 从 解决 


问题 的 角度 可 以 分 为 分 类 问题 聚 类 问题 和 回归 问题 。 分 类 很 容易 理解 ， 
| 
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就 是 把 数据 分 到 某 一 类 ， 常 用 的 模型 有 贝 叶 斯 模型 、KNN、SVM、 最 大 
炉 模型 等 。 聚 类 问题 是 将 数据 根据 相似 性 划 归 到 不 同 的 类 ， 类 内 相似 性 
大 ， 类 间 相 似 性 小 ， 相 当 于 从 数据 中 发 现 这 些 潜在 的 关系 ， 常 用 的 算法 有 
k-means, Topic model 和 等。 回归 是 用 来 描述 输入 和 输出 之 间 的 函数 关系 ， 






































是 一 个 连续 值 ， 有 线性 回归 和 风 辑 回归 等 ， 





















































9 时候 把 回归 模型 卡 个 阐 值 也 
就 可 以 做 分 类 问题 了 。 在 NLP 还 有 一 类 任务 : 序列 标注 问题 ， 例 如 词性 标 
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注 ， 专 名 识别 等 ， 它 就 是 要 给 一 个 序列 (例如 句子 ， 由 多 个 词组 成 ) 中 的 
每 个 单元 ( 词 都 要 赋予 一 个 类 别 标签 ， 相 当 于 要 对 每 个 单元 做 一 个 分 类 ， 
一 般 使 用 CRE 等 模型 。 机 器 学 习 按照 学 习 风 格 来 分 ， 可 以 分 为 监督 学 习 、 












































无 监督 学 习 和 半 监 督学 习 。 监 督学 习 是 需要 有 标注 的 数据 来 训练 模型 的 ， 








比如 分 类 问题 或 者 序列 标注 任务 ;无 监督 学 习 是 不 需要 标注 数据 就 可 以 训 








练 模型 的 ， 例 如 聚 类 问题 。 半 监督 学 习 是 利 月 














少量 标注 数据 和 大 量 未 标注 











数据 进行 训练 模型 的 。 当 然 还 有 一 些 其 他 机 器 学 习 方 法 ， 例 如 强化 学 习 ， 
它 会 根据 不 同 的 动作 给 予 不 同 的 奖励 ， 使 得 向 更 优 的 方向 前 进 ， 再 例如 主 
动 学 习 (active learning)， 它 更 多 的 是 一 个 思想 ， 我 们 知道 训练 语 料 对 机 
































器 学 习 的 效果 有 很 大 的 影响 ， 所 以 如 何 挑选 更 



































价值 的 训练 语 料 是 很 重要 








的 ， 那 些 模型 解决 错误 的 数据 纠正 过 来 加 到 训练 语 料 中 必 将 非常 有 效 ， 这 
就 构成 了 更 新 模型 的 一 个 循环 流程 ， 这 也 是 模型 














优化 很 重要 的 一 个 点 。 











机 器 学 习 在 文本 任务 上 有 个 很 重要 的 应 月 



































单 介绍 下 文本 分 类 ， 传 统 的 文本 分 类 框架 如 图 3.44 上 图 所 示 ， 最 重要 的 两 




















Ha 








i 是 文本 分 类 ， 在 这 里 就 简 





步 就 是 特征 选择 和 模型 训练 。 首 先是 特征 选择 ， 在 前 面 提 到 过 特征 工程 的 
方法 (特征 选择 、 特 征 离散 化 、 特 征 交 又 和 特征 修正 )， 但 是 对 于 文本 分 
类 这 种 单一 任务 ， 其 实 只 需要 特征 选择 就 够 了 ， 即 找到 哪些 词 可 以 代表 该 
文本 〔 因 为 词典 太 大 ， 要 降低 特征 向 量 的 维 数 )。 






























































式 、 信 息 增益 、 互 信息 (这 些 概念 放 到 了 第 




















般 有 文档 频率 、 卡 方 公 














第 5 章 查 阅 ) 等 方法 ， 也 就 是 根据 这 些 计算 值 ， 对 词 进行 排序 ， 把 阔 值 以 下 
的 词 去 掉 ， 只 剩 下 闵 值 以 上 的 词 用 来 表示 文本 (效果 对 比 ， 可 以 参考 论文 
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«A Comparative Study on Feature Selection in Text Categorization》， 当 然 可 以 
根据 自己 的 任务 特点 设计 自己 的 特征 选择 算法 )。 当 选 出 词 之 后 ， 要 为 每 
个 词 赋予 一 个 值 ， 来 代表 它 对 该 文本 的 重要 程度 ， 一 般 有 萎 、tfx*idf、 焙 权 
重 等 方法 。 在 实际 使 用 的 时 候 ， 尤 其 是 短文 本 ， 只 用 文本 中 的 单个 词 来 提 
取 特 征 太 稀 疏 ， 会 对 效果 有 很 大 影响 ， 所 以 根据 任务 需要 更 多 的 特征 ， 例 
如 ，2-gram、3-gram 等 等 ， 之 后 就 把 提 好 的 特征 向 量 输入 到 机 器 学 习 模 型 
中 ， 例 如 : SVM. BASILE A DA. AEB, FRSA SC AS oP SR OA 
效果 的 主要 是 特征 选择 和 分 类 器 这 两 个 模块 ， 然 而 在 深度 学 习 的 时 候 ， 没 
有 了 人 工 特征 提取 ， 取 而 代 之 的 用 深度 学 习 模 型 训练 的 向 量 来 代表 文本 ， 

且 这 个 向 量 也 是 自动 学 习 出 来 的 ， 不 需要 人 工 来 专门 提取 ， 如 图 3.44 下 
图 所 示 。 首 先 对 使 用 one hot 表示 的 原始 句子 中 的 每 个 词 Embedding 成 一 
个 向 量 表示 ， 然 后 用 深度 学 习 模 型 表示 成 句子 向 量 ， 然 后 来 个 softmax， 
这 其 实 也 是 深度 学 习 应 用 的 一 个 通用 框架 。 
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原始 句子 特征 选择 
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Embedding 句子 向 量 
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任务 : 分 类 





CNN 
= RNN = = softmax 


wordn | | One hot dense 
图 3.44 ”分 类 框架 
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后 介绍 下 如 何 评价 机 器 学 习 模 型 ， 先 介绍 几 个 术语 名 词 : 
正 类 TP (True Positive) 被 模型 标 为 正 的 正 样本 ; 
假 正 类 FP (False Positive) 被 模型 标 为 正 的 负 样 本 ; 
假 负 类 FN (False Negative) 被 模型 标 为 负 的 正 样本 ; 
真 负 类 TN (True Negative) 被 模型 标 为 负 的 负 样 本 ; 
真正 类 率 TPR = TP/(TP + EN) ; 

假 正 类 率 FPR = FP/(FP + TN). 

那么 常用 的 评价 指标 就 是 : 

准确 率 P= TP/(TP + FP)， 反 映 了 被 模型 判定 的 正 类 
的 比重 ; 

HEX R = TP/(TP + FN)， 有 反映 了 被 模型 正确 判定 的 正 类 占 总 的 正 类 
的 比重 ; 

F1 {Ë F = 2*PxR/(P+R)。 

常用 的 评价 曲线 有 两 种 : PR (Precision-Recall) 曲线 和 ROC (Receiver 
Operating Characteristic) 曲线 ， 如 图 3.45 所 示 。PR 曲线 的 横 坐 标 是 精 
确 率 P， 纵 坐标 是 召回 率 R; ROC 曲线 的 横 坐 标 是 假 正 类 率 FPR， 纵 
坐标 是 真正 类 率 TPR。 在 ROC 曲线 有 4 个 非常 重要 的 点 : (0,0)， 此 时 
FP=TP=0， 说 明 横 型 将 每 个 样本 预测 为 负 类 ; 〈1,1)， 此 时 FN=TN=0, 
说 明 模 型 将 每 个 样本 预测 为 正 类 ; (0,1)， 此 时 FP=FN=0， 说 明 模 型 将 所 
样本 都 正确 分 类 ， 是 个 好 模型 ，(1,0)， 此 时 TN=TP=0， 说 明 模 型 将 
所 有 样本 都 没有 分 类 正确 ， 是 个 非常 差 的 模型 。 总 之 ，ROC 曲线 越 接 近 
左上 角 ， 该 分 类 器 的 性 能 越 好 。ROC 曲线 在 样本 不 平衡 的 情况 下 ， 都 能 
保持 很 好 的 平滑 ， 所 以 一 般 都 使 用 ROC 曲线 。AUC (Area Under Curve) 
是 ROC 曲线 下 面 的 面积 ， 通 常 大 于 0.5 ADF 1， 面积 越 大 分 类 器 性 能 
越 好 。 
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如何 做 特征 工程 ? 文本 分 类 的 特征 选择 有 哪些 方法 ? 
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问题 题 与 思 


生成 式 模型 和 判别 式 模型 的 区 别 是 什么 ? 
GBDT 和 随机 森林 的 区 别 是 什么 ? 

核 函数 的 作用 是 什么 ? 

EM 算法 用 在 什么 情况 下 ? 

































































句子 表示 成 向 量 的 意义 是 什么 ? 








如何 训练 一 词 多 义 的 词 向 量 ? 
. LSTM 为 何 比 RNN 好 ? 
. CNN 模型 的 特点 是 什么 ? 
10. 











深度 学 习 有 哪些 tricks ? 














11. 如 何 评价 一 个 机 器 学 习 模 型 ? 


12. 


无 监督 学 习 能 有 什么 突破 ? 
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如 何 计算 得 更 快 











pE 着 数据 量 的 爆炸 式 增 长 ， 如 何 存储 和 计算 海量 数据 就 成 了 一 个 
过 所 以 解决 这 个 问题 的 分 布 式 系统 逐渐 成 为 目前 必 不 可 少 


问题 ， 


的 技术 之 一 。 而 线 上 业务 怎么 更 快 更 好 地 完成 月 


重要 的 。 




















4.1 程序 优化 

















昌 户 请 求 ， 这 个 问题 也 是 很 


在 学 习 程序 优化 之 前 ， 必 须 先 得 知道 程序 是 怎么 运行 的 ， 如 图 4.1 所 





示 。 例 如 ， 我 们 











二 进 制 hello 文件 ， 那 么 要 执行 它 ， 首 先 从 键盘 敲 入“./hello”， 




















并 且 生 成 了 





刚 编写 了 一 个 printf(“hello worldin” ) 程序 ， 

















shell 会 逐 








一 读 取 字符 到 寄存 器 ， 然 后 把 它们 放 到 存储 器 中 。 当 按 下 回 车 键 的 时 候 ， 
系列 命令 ， 这 些 命令 会 将 hello 目标 文件 中 的 代码 和 数据 


shell 就 会 执行 一 


从 磁盘 拷贝 到 主 存 〈 利 用 DMA 可 以 不 通过 处 到 
— E hello 目标 文件 中 的 代码 和 数据 加 载 到 了 存储 器 
行 hello 程序 。 它 将 “hello world\n 

存 器 中 拷贝 到 显示 器 上 。 这 样 整个 过 程 就 结束 了 。 我 们 可 以 看 到 ， 整 个 过 















































KEP RSME TKS 





BASIN TE fe kA “Sa 8 ULB PS, hello 程 





器 而 直接 从 磁盘 到 主 存 )， 
PF， 处 理 器 就 开始 执 
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序 的 机 器 指令 开始 时 是 在 磁盘 上 ， 程 序 加 载 时 ， 它 们 被 拷贝 到 主 存 ， 当 处 
理 器 运行 程序 时 ， 指 令 又 从 主 存 揽 贝 到 处 理 器 。 这 样 就 会 有 个 问题 需要 系 
统 设计 者 考虑 ， 就 是 怎样 设计 存储 器 使 这 些 找 贝 操作 尽 可 能 地 快 。 


















































CPU 


寄存 器 文件 






扩展 槽 ， 留 待 
网 络 适配器 一 
磁盘 适配器 | 类 的 设备 使 用 




















































鼠标 键盘 显示 器 — 存储 在 磁盘 上 的 
hello 可 执行 文件 
34.1 
存储 器 的 设计 如 图 4.2 所 示 ， 可 以 将 上 一 层次 的 存储 器 看 作 是 下 一 层次 
更 小 | CPU 寄 存 器 保存 来 自 高 速 缓存 
更 贵 的 ae LIAE E REER ALZAN ATE 
存储 设备 La. /12 商 如 缓存 \ MSHA 
(SRAM) | Lie ES fF AR LS HEE 
P Te 的 高 速 缓存 行 
CRAD | L3 高 速 缓存 保存 取 自主 存 
(aes (DRAM) 主 存 保存 取 自 本 地 磁盘 
ae rie 
ELEN L5: 本 地 二 级 存储 
存储 设备 “a 本 地 厂 和 保存 取 自 远程 网 络 
本 服务 器 上 磁盘 的 文件 


远程 二 级 存储 
(分 布 式 文件 系统 ，Web 服 务 器 ) 
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4.1 程序 优化 








存储 器 的 高 速 缓存 ， 越 上 层 的 速度 越 快 但 存储 量 越 小 ， 相 反 ， 越 下 层 的 速 
度 越 慢 但 存储 量 越 大 。 这 些 内 容 来 自 《 深 入 理解 计算 机 系统 》 一 书 ， 这 是 
一 本 至 少 要 读 两 遍 的 书 。 

现在 我 们 来 说 程序 优化 ， 程 序 优化 从 大 的 方面 来 讲 可 以 分 为 三 个 级 
别 : (1) 系统 级 ; (2) 算法 /数据 结构 级 (3) 代码 级 。 系 统 级 对 性 能 人 
影响 最 大 ， 其 次 是 算法 /数据 结构 级 ， 再 次 是 代码 级 。 系 统 级 注重 系统 的 
整个 流程 、 负 载 均 衡 等 等 ， 后 面 要 专门 讲 的 分 布 式 也 算是 系统 级 的 优化 ， 
下 面 只 讨论 算法 /数据 结构 级 和 代码 级 优化 。 

毋庸 置疑 ， 一 个 好 的 算法 或 数据 结构 对 系统 会 有 很 大 影响 ， 快 速 传 里 
叶 变 换 之 所 以 在 推动 数字 信号 处 理 的 快速 发 展 起 了 很 大 作用 ， 就 是 它 将 侍 
里 叶 变 换 从 O(N^2) 变 成 了 O(NlogN)， 可 以 算是 一 个 质 的 改进 。 所 以 说 ， 
我 们 在 写 程序 的 时 候选 用 什么 样 的 算法 和 什么 样 的 数据 结构 都 很 重要 。 做 
出 合适 的 选择 的 前 提 是 ， 你 要 知道 目前 有 哪些 算法 或 者 数据 结构 可 以 解决 
你 的 问题 ， 例 如 优先 队列 、Trie 树 、 跳 表 、Bloom Filter 等 这 些 大 学 没 学 
到 的 算法 ， 你 知道 它们 有 什么 作用 吗 ? 例如， 在 我 们 的 一 个 模板 匹配 系统 
中 ， 我 们 将 正则 匹配 改 成 了 Trie W + 优先 队列 + 各 种 剪 枝 ， 性 能 就 有 质 的 
提升 。 然 而 有 些 实际 问题 并 不 能 使 用 现 有 的 算法 搞定 ， 必 须根 据 自己 的 业 
务 需求 ， 自 己 设计 算法 和 数据 结构 ， 这 就 完全 看 个 人 能 力 了 。 除 了 算法 本 
身 的 特点 外 ， 还 有 一 个 很 重要 的 思想 就 是 : 空间 换 时 间 。 例 如 ， 在 我 们 的 
一 个 排序 中 要 将 一 个 0 一 1 亿 的 数 当做 一 个 特征 使 用 起 来 ， 我 们 设计 了 一 
个 双 sigmoid 函数 将 这 个 值 映 射 到 了 0 一 1 的 浮 点 数 ， 用 到 了 指数 函数 ， 它 
的 计算 效率 不 高 ， 为 了 能 加 速 ， 我 们 事先 将 0 一 1 亿 个 值 的 双 sigmoid 值 
计算 好 存储 起 来 ， 当 使 用 的 时 候 就 直接 读 取 就 行 了 ， 这 对 系统 性 能 也 是 
有 提升 的 。 再 例如 ， 假 如 下 面 这 段 程序 会 被 调用 很 多 次 ， 那 么 可 以 事先 
将 a 按 照 TYPE 分 到 各 个 b TYPE 
C1) 降低 了 循环 次 数 ; (2) 消除 了 证 判断 。 这 些小 的 细节 优化 一 定 会 提 
升 性 能 ， 只 要 你 愿意 去 找到 优化 的 方法 。 
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for (int i = 0; i < A NUM; ++i) 
{ 
if (TYPE == a[i]) 
; //do something 





代码 级 优化 也 很 重要 (很 多 人 其 实 不 愿意 做 这 个 事 )。 从 图 4.2 可 以 看 
出 ， 越 上 层 存 储 器 越 快 ， 上 层 可 以 看 成 是 下 层 的 组 在 ， 其 实 计 算 机 的 确 会 
缓存 ， 例 如 读 磁盘 的 时 候 并 不 是 一 个 字 节 一 个 字 节 读 ， 而 是 一 次 读 一 个 块 
到 内 存 〈 尽 管用 户 程序 就 是 读 一 个 字 节 )， 这 样 读 下 一 个 字 节 的 时 候 就 不 
用 再 和 磁盘 交互 了 ， 寄 存 器 缓存 也 会 做 一 样 的 事情 。 这 就 衍生 出 两 个 很 习 
要 的 指导 思想 : (1) 尽 可 能 使 用 上 层 存储 器 ， 能 使 用 寄存 器 的 时 候 就 尽量 
不 要 使 用 内 存 ， 能 使 用 内 存 的 时 候 就 尽量 不 要 使 用 磁盘 ; C2) 计算 机 具有 
局 部 性 。 例 如 ， 

尽 可 能 多 用 局 部 变量 ， 因 为 局 部 变量 大 多 会 缓存 在 寄存 器 中 ， 访 问 束 
度 快 ; 
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Pi 


可 能 少 调用 函数 ， 函 数 参 数 尽 可 能 少 ， 参 数 尽 可 能 是 指针 或 者 引 
用 ， 因 为 这 可 以 减少 拷贝 ; 

处 理 的 数据 尽 可 能 紧凑 且 少 ， 因 为 可 以 大 概率 的 缓存 到 上 层 存 储 器 
中 ， 这 也 是 数据 压缩 的 目的 之 一 ; 

尽 可 能 顺序 读 写 而 不 要 随机 读 写 ， 且 尽量 多 使 用 刚 读 取 的 数据 ， 因 为 
程序 局 部 性 原理 ， 最 近 使 用 的 数据 附近 的 数据 会 缓存 起 来 ; 

尽 可 能 使 用 内 存 ， 而 不 是 磁盘。 在 这 儿 简 单 说 下 磁盘 读 取 的 原理 ， 
如 图 4.3 所 示 ， 假 设 要 读 取 @@ 位 置 的 数据 ， 磁 头 首 先 需要 从 它 现在 的 位 置 
由 处 移动 到 名 的 位 置 《这 个 叫 寻 道 时 间 )。 读 取 数 据 时 ， 像 @@ 那 样 盘 片 转 
动 之 后 ， 盘 片 @ 上 的 数据 就 超过 了 磁头 的 位 置 而 无 法 读 取 到 ， 盘 片 就 必须 
FRR FE] (这 个 叫做 旋转 时 间 )， 读 取 到 数据 后 ， 就 需要 通过 总 线 @ 传 输 
到 CPU 中 (这 个 叫 传送 时 间 )。 当 然 操作 系统 为 了 提高 性 能 ， 减 少 磁 盘旋 
转 ， 每 次 会 读 一 个 块 (4KB 左右 ) 的 数据 ， 而 不 是 一 个 字 节 。 知 道 为 什么 
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4.2 分布 式 系统 





内 存 比 磁盘 读 取 速 度 慢 了 吧 ? 磁盘 读 取 数 据 耗 时 是 寻 道 时 间 + 旋转 时 间 
+ 传送 时 间 ， 而 内 存 几 乎 就 是 传送 时 间 ， 而 且 二 者 的 传送 时 间 也 不 在 一 
DERE. SSD (固态 硬盘) 虽然 不 需要 物理 移动 即 可 高 效 搜索 到 数据 ， 
但 是 由 于 总 线 速度 的 瓶颈 以 及 其 他 结构 的 影响 ， 其 速度 也 是 无 法 和 内 存 
相 比 的 。 























二 纳 秒 
Ar = a 
me E j 
E Ai 
O58MB/#> 
加 磁盘 总 线 
全 磁头 移动 | 均 为 
磁头 去 TO ut ated: | BEBE 


旋转 


oa OBERT WAS ee t 
. Ok PEE 





414.3 

总 之 ， 要 想 写 出 高 效 的 程序 ， 除 了 学 习 算 法 和 数据 结构 外 ， 对 计算 机 
结构 必须 要 了 如 指 掌 ， 这 是 根本 ， 所 谓 万 变 不 离 其 宗 。 然 后 就 是 多 写 程 
序 ， 多 看 书 ， 多 思考 ， 最 重要 的 一 点 就 是 要 有 精益 求 精 态 度 。 要 想 优 化 一 
定 会 有 很 多 点 可 以 优化 ， 就 看 你 愿 不 愿意 做 了 。 
























































4.2 分布 式 系统 

一 天 ， 小 明 的 老板 给 了 他 一 个 任务 ， 让 他 去 计算 一 对 浮 点 数 相 乘 。 对 
小 明 这 种 码 农 来 说 自然 容易 得 很 ， 一 行 代码 就 搞定 了 。 过 了 一 会 儿 ， 小 明 
老板 又 来 找 他 ， 说 他 手 上 有 1 万 对 浮 点 数 需要 相 乘 ， 对 小 明 来 说 也 很 容易 ， 
循环 一 下 就 搞定 了 。 过 了 两 天 ， 老 板 又 找 小 明 来 了 ， 说 他 手 上 现在 有 
亿 对 译 点 数 ， 让 小 明 尽 快 去 把 相 乘 结果 给 他 。 小 明 想 ， 容 易 啊 ， 把 前 面 那 
个 循环 程序 拿 来 一 跑 就 行 了 啊 ! 于 是 ， 小 明 开 始 在 它 的 PC 上 跑 程序 了 ， 
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但 是 令 小 明 郁 闽 的 是 ， 时 间 一 分 一 秒 的 过 去 ， 就 是 跑 不 出 结果 啊 读 者 不 妨 
试 试 ，1 百 亿 个 浮 点 数 相 乘 ， 在 你 的 PC 上 要 跑 多 和 久 … 
随 着 互联 网 的 发 展 ， 数 据 是 爆炸 式 增长 的 ， 那 么 如 何 存储 和 计算 大 规模 的 
数据 就 是 一 个 非常 棘手 的 问题 了 。 小 明 连 1 百 亿 个 浮 点 数 都 计算 不 出 来 ， 而 且 
浮 点 相 乘 算是 最 简单 的 算法 了 ， 稍 微 复 杂 的 算法 ， 那 岂 不 是 更 跑 不 出 来 了 ? 

既然 遇 到 了 问题 ， 那 就 应 该 想 办 法 解决 。 怎 么 解决 呢 ? 小 明 想 ， 如 果 
老板 能 给 他 配 一 台 牛 逼 点 的 机 器 ， 例 如 中 科 院 的 超级 计算 机 ， 那 不 是 很 快 就 
计算 出 来 了 吗 ? 但 是 这 可 能 吗 ? 为 了 计算 1 百 亿 个 浮 点 数 相 乘 ， 买 一 台 超级 
计算 机 ， 这 显然 成 本 太 高 了 啊 ， 这 个 方法 显然 行 不 通 。 那 就 需要 第 二 种 方 
法 ， 用 术语 说 叫 分 治 思想 ， 用 俗语 说 就 是 人 海战 术 。 既 然 1 百 亿 个 数 没 法 
计算 ， 那 么 就 多 找 几 台 机 器 ， 机 器 差点 都 无 所 谓 ， 每 台 机 器 计算 一 部 分 ， 
然后 最 后 汇总 起 来 ， 不 就 快 了 。 没 错 ， 这 其 实 就 是 分 布 式 计算 的 思想 。 

分 布 式 系 统 主要 包括 两 部 分 : 分 布 式 存储 和 分 布 式 计 算 。 要 了 解 这 些 
东西 ， 必 不 可 少 要 看 的 Google 发 表 的 两 篇 论文 《The Google File System) 
和 《MapReduce: Simplified Data Processing on Large Clusters》。 目 前 ， 分 布 
式 存 储 根据 不 同 的 业务 产生 了 不 同 的 数据 库 ， 尤 其 随 着 数据 量 的 增 大 ， 就 
诞生 了 另 一 类 数据 库 : NoSQL 数据 库 。 它 主要 包括 (1) key-value 数据 库 ， 
代表 有 Redis、LevelDB、Dynamo 等 ; (2) 列 式 数据 库 ， 代 表 有 BigTable、 
Hypertable, Cassandra 等 ; (3) 文档 数据 库 ， 代 表 有 CouchDB, MongoDB 
等 ; (4) 图 形 数 据 库 ， 代 表 有 OrientDB、GraphDB 等 。 分 布 式 计算 模 
型 大 概 有 这 几 种 : CL) 多 线程 ， 最 基本 的 方法 ; (2) Graphics Processing 
Units， 利 用 图 形 处 理 器 的 高 度 并 行 结构 来 提高 速度 ; (3) Message Passing 
Interface， 一 种 消息 传递 编程 模型 (4) MapReduce. 

要 想 设计 好 分 布 式 系统 ， 其 实 不 是 一 件 简单 的 事情 ， 需 要 考虑 很 多 事 
情 ， 如 集群 负载 均衡 、 数 据 的 正确 性 和 完整 性 、 服 务 器 的 错误 处 理 等 等 。 
笔者 不 是 专业 摘 分 布 式 的 ， 也 只 是 看 了 些 论文 和 书籍 ， 读 者 感 兴趣 可 以 参 
考 相应 的 文献 。 下 面 只 是 从 应 用 的 角度 来 看 看 分 布 式 系统 的 用 处 。 
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4.3 Hadoop 





Hadoop 是 一 个 软件 平台 ， 是 Apache 开源 组 织 的 一 个 分 布 式 计算 开源 























框架 ， 可 以 让 你 很 容易 地 开发 和 运行 处 理 海量 数据 的 应 用 。Hadoop 框架 中 
最 核心 的 设计 就 是 MapReduce 和 HDFS。 可 以 说 ，Hadoop 是 基于 分 布 式 
文件 系统 HDFS)〉 的 MapReduce 的 实现 ， 也 可 以 说 ， 它 是 Google 的 那 两 
篇 经 典 文章 的 开源 实现 。 现 在 ， 几 乎 每 家 大 公司 都 会 部 署 Hadoop 集群 来 






































进行 大 数据 运算 ， 开 源 真 是 好 东西 啊 ! 

分 布 式 文件 系统 ( HDFS ) 

HDFS 采用 master/slave 架构 。 一 个 HDFS 集群 是 由 一 个 Namenode 
和 一 定数 目的 Datanode 组 成 。Namenode 是 一 个 中 心服 务 器 ， 负 责 管 理 
文件 系统 的 名 字 空 间 (namespace) 以 及 客户 端 对 文件 的 访问 。 集 群 中 的 
































Datanode 一 般 是 一 个 节点 一 个 ， 负 责 管理 它 所 在 节点 上 的 存储 。HDFS 暴 
露 了 文件 系统 的 名 字 空 间 ， 用 户 能 够 以 文件 的 形式 在 上 面 存 储 数据 。 从 
内 部 看 ， 一 个 文件 其 实 被 分 成 一 个 或 多 个 数据 块 ， 这 些 块 存储 在 一 组 
Datanode 上 。Namenode 执行 文件 系统 的 名 字 空 间 操 作 ， 如 打开 、 关 闭 、 



































MapReduce 














重 命 名 文件 或 目录 。 它 也 负责 确定 数据 块 到 具体 Datanode 节点 的 映射。 
Datanode 负责 处 理 文件 
下 进行 数据 块 的 创建 、 删 除 和 复制 。 





系统 客户 端的 读 写 请 求 。 在 Namenode 的 统一 调度 





=, 
































MapReduce 任务 是 用 来 处 理 键 / 值 对 的 。 该 框架 将 每 个 输入 的 记录 成 





转换 一 个 键 / 值 对 ， 每 对 数据 会 被 输入 给 Map 作业 。Map 任务 的 输出 是 









































套 键 / 值 对 ， 原 则 上 ， 输 入 是 一 个 键 / 值 对 ， 但 是 ， 输 出 可 以 是 多 个 键 
























































/ 值 对 。 之 后 ， 它 对 Map 输出 键 / 值 对 分 组 和 排序 。 然 后 ， 对 排序 的 每 个 
键 值 对 调用 一 次 Reduce 方法 ， 它 的 输出 是 一 个 键 值 和 一 套 关 联 的 数据 值 。 















































Reduce 方法 可 以 输出 任意 数量 的 键 / 值 对 ， 这 将 被 写 入 工作 输出 目录 下 的 


输出 文件 。 这 个 过 程 如 











图 4.4 所 示 。 
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Big Data 


Partition 1 Partition 2 g5 Partition N 


Mapper 2 


Value> 


Redu o Redu 








Output 2 





图 4.4 


如 果 还 是 不 好 理解 ， 那 我 们 就 以 那个 最 经 典 的 计算 词 频 来 说 明 ， 假 设 
有 一 堆 分 好 词 的 文本 ， 现 在 的 任务 是 要 统计 每 个 词 的 频率 〈 出 现 的 次 数 )， 
如 图 4.5 所 示 。 


Hello World Hello Hadoop 
Bye World Goodbye Hadoop 


Mapper 1 Mapper 2 


<Hello, 1> <Hello, 1> 
<World, 1> <Hadoop, 1> 
<Bye, 1> <Goodbye, 1> 


5 lle <Hadoop，1> 


Reducer 1 Reducer 2 
Words from A-G Words from H-Z 


siil 2 
<World, 2> 
<Hadoop, 2> 


<Bye, 1> 
<Goodbye, 1> 
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4.3 Hadoop 


首先 把 文本 分 成 若干 份 ， 然 后 每 一 份 数据 ， 分 配给 一 个 Mapper， 这 个 
Mapper 的 职责 就 是 将 每 个 词 赋值 为 1( 即 key 为 该 词 ，value 为 1); 之 后 
每 个 Mapper 会 把 自己 的 数据 按照 某 种 规律 (如 按 字母 序 ， 这 样 同一 个 词 
才能 分 配 到 一 个 Reducer) 发 给 相应 的 Reducer, Reducer 的 职责 就 是 把 相 
E] key 的 value 累加 起 来 ， 这 样 ， 就 统计 完 词 频 了 。 

Hadoop 的 编程 方式 有 两 种 : Pipes 和 Streaming。 直 接 上 代码 吧 ! F] 
的 例子 是 笔者 在 2011 年 写 的 ， 现 在 版 本 的 Hadoop 又 增加 了 不 少 新 特性 了 。 

Pipes 方式 : 

首先 ， 建 立 相 应 的 目录 
































iy) 
































> hadoop fs -mkdir name 
> hadoop fs -mkdir name/input 
> hadoop fs -put filel.txt file2.txt name/input 


编写 程序 (wordcount.cpp) 


#include<algorithm> 
#include<limits> 

#include<string> 

#include"stdint.h" 
#include"hadoop/Pipes.hh" 
#include"hadoop/TemplateFactory.hh" 
#include"hadoop/StringUtils.hh" 
usingnamespace std; 





class WordCountMapper:publicHadoopPipes: :Mapper 
{ 
public: 
WordCountMapper (HadoopPipes::TaskContexté&context) {} 
void map (HadoopPipes: :MapContext& context) 
{ 
string line =context.getInputValue(); 
vector<string>word = HadoopUtils::splitString(line, " "); 
for (unsignedint i=0; i<word.size(); i++) 
{ 
context.emit (word[i],HadoopUtils::toString(1)); 
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] 7 
class WordCountReducer:publicHadoopPipes: :Reducer 
{ 
public: 
WordCountReducer (HadoopPipes: :TaskContexté&context) {} 
void reduce (HadoopPipes: :ReduceContext& context) 
{ 
int count = 0; 
while (context.nextValue () ) 
{ 
count +=HadoopUtils::tolInt (context.getInputValue()); 
} 
context.emit (context.getInputKey() ,HadoopUtils: :toString(cou 
nt)); 


hi 
int main(int argc, char **argv) 
{ 
returnHadoopPipes: :runTask (HadoopPipes: :TemplateFactory<WordCount 
Mapper, WordCountReducer>()); 
} 


编写 makefile 


CE = gtt+ 

HADOOP INSTALL =../../data/users/hadoop/hadoop/ 

PLATFORM = Linux-amd64-64 

CPPFLAGS = -m64-I$ (HADOOP_INSTALL) /c++/S (PLATFORM) /include 


wordcount:wordcount.cpp 
$(CC) $(CPPFLAGS) $< -Wall -L$ (HADOOP_INSTALL) /c++/S (PLATFORM) / lib- 
lhadooppipes -lhadooputils -lpthread -g -02 -o $@ 


编译 程序 并 且 放 入 hadoop 系统 


> make wordcount 


> hadoop fs -put wordcount name/worcount 
编写 配置 文件 Gob_config.xml 


<?xml version="1.0"?> 
<configuration> 
<property> 
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<name>mapred. job.name</name> 
<value>WordCount</value> 


</property> 


<property> 
<name>mapred. reduce.tasks</name> 
<value>10</value> 


</property> 


<property> 
<name>mapred.task.timeout</name> 
<value>180000</value> 
</property> 


<property> 
<name>hadoop.pipes.executable</name> 
<value>/user/hadoop/name/wordcount</value> 
<description> Executable path is given as"path#executable-name" 
sothat the executable will havea symlink in working 
directory. 
This can be used for gdbdebugging etc. 
</description> 
</property> 


<property> 
<name>mapred.create.symlink</name> 
<value>yes</value> 

</property> 


<property> 
<name>hadoop.pipes. java. recordreader</name> 
<value>true</value> 

</property> 


<property> 
<name>hadoop.pipes.java.recordwriter</name> 
<value>true</value> 

</property> 

</configuration> 


<property> 
<name>mapred.child.env</name> 
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<value>LD LIBRARY PATH=/data/1lib</value><!-- 如 果 用 到 动态 库 : 1ib 库 的 路 径 ， 要 
保证 每 台 机 器 上 都 有 ， 现 在 的 版 本 直接 用 命令 打 个 包 就 行 了 --> 
<description>User added environment variables for the task tracker 
child 

processes. Example : 

1) A=foo This will set the env variable A to foo 

2) B=$B:c This is inherit tasktracker's B env variable. 
</description> 
</property> 
<property> 
<name>mapred.cache.files</name> 
<value>/user/hadoop/name/data#data</value><!--m RA Sl RBH: hadoop 上 
的 data 路 径 ， 程序 中 fopen ("data/file.txt"，"r")， 现 在 的 版 本 直接 用 命令 打 个 包 就 行 了 
--> 


</property> 


> hadoop pipes -conf ./job_config.xml -input/user/hadoop/name/input/* 


-output /user/hadoop/name/output -program/user/hadoop/name/wordcount 

TER, output 文件 夹 在 运行 前 不 能 建立 ， 系 统 会 自己 建立 。 

这 个 例子 很 简单 ， 只 是 统计 词 频 ， 但 是 ， 实 际 的 数据 挖掘 比较 复杂 ， 
尤其 涉及 中 文 ， 很 多 情况 下 要 进行 分 词 ， 那 就 要 初始 化 一 些 分 词句 柄 及 空 
间 ， 然 后 分 词 处 理 。 其 实 可 以 将 MapReduce 程序 看 成 普通 的 C++ 程序 ， 
要 初始 化 东西 ， 放 到 构造 函数 ， 有 具体 处 理 放 到 Map 和 Reduce 里 。 

Streaming 方式 : 

编写 map 程序 (map.cpp) 


















































F 





























#include<string> 
#include<iostream> 
usingnamespace std; 


int main() 
{ 

string line; 

while (cin>>line)// 如 果 是 中 文 的 话 ， 用 fgets (char*，int n, stdin) BHX, 
再 分 词 处 理 

{ 
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cout<<line<<"\t"<<l<<endl; 
} 
return 0; 


} 
>>gt+ -o map map.cpp 





编写 reduce 程序 (reduce.cpp ) 


#include<map> 
#include<string> 
#include<iostream> 


usingnamespace std; 


int main () 
{ 
string key; 
string value; 
map<string,int> word count; 
map<string,int> :: iterator it; 
while (cin>>key) 
{ 
cin>>value; 
it= word _count.find (key); 


if(it!= word _count.end() ) 
++ (it->second) ; 
else 


word_count.insert (make_pair(key,1)); 





for (It= word_count.begin(); it != word_count.end(); ++it) 


cout<<it->first<<"\t"<<it->second<<endl; 


return 0; 


} 


>>g++ -o reduce reduce.cpp 


需要 统计 的 文件 ， 并 提交 至 中 
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Filel.txt: hello hadoop helloworld 
File2.txt: this is a firsthadoop 





>>hadoop fs -put Filel.txt File2.txt ans 
\、 一 /一 工 口 
运行 程序 


>>hadoop jar /data/users/hadoop/hadoop/contrib/streaming/hadoop- 
streaming-0.20.9.jar -file map -file reduce -input ans/* -output outputl 
-mapper /data/name/hadoop_streaming/map -reducer /data/name/hadoop__ 
streaming/ reduce 


44 问题 与 思考 
1. 计算 机 的 结构 以 及 SSD 和 普通 硬盘 的 区 别 是 什么 ? 
2. 如 何 优 化 程序 性 能 ? 
3. 试 述 Hadoop 的 原理 。 
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HS 5 RE 
Pi AE ERAN iE 











Peep 想 继 续 学习 后 面 的 章节 ， 尤 其 是 搜索 引擎 ， 还 必须 要 知道 
基本 的 术语 。 





5.1 tf/df/idf 


首先 需要 声明 的 是 我 们 一 般 说 女 df、idf 都 是 指 某 个 词 的 给 、df、idf， 
也 可 以 说 这 三 个 术语 是 词 的 属性 。 

给 就 是 词 频 ， 它 的 全 称 是 term frequency。 这 个 概念 最 容易 理解 ， 就 是 
某 个 词 出 现 的 次 数 ， 出 现 几 次 ， 该 词 的 葵 就 是 几 。 它 一 般 表示 的 是 一 个 词 
的 局 部 信息 。 

df 就 是 文档 频率 ， 它 的 全 称 就 是 document frequency。 它 是 指 某 个 词 
的 文档 频率 ， 这 个 词 在 多 少 个 文档 中 出 现 ， 那 么 ， 该 词 的 性 就 是 几 。df 也 
是 特征 选择 的 一 个 指标 。 

idf 是 逆 文 档 频率 ， 它 的 全 称 就 是 inverse document frequency。 它 是 词 
重要 性 的 一 个 很 好 的 衡量 指标 。 试 想 ， 如 果 某 个 词 在 非常 多 的 文档 中 都 出 
现 过 ， 如 “的 “了 ”这 些 词 ， 那 么 它 是 不 就 不 太 重 要 ; HR, WRK 
个 词 在 很 少 的 文档 中 出 现 过 ， 那 么 它 是 不 是 就 相对 来 说 比较 重要 。 简 单 来 
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说 ， 就 是 物 以 稀 为 贵 。 那 么 ，idf 怎么 计算 呢 ? 公式 很 简单 “有 些 会 稍 有 
不 同 ): 




















idf; = log 


也 就 是 用 |D|《〈 语 料 库 中 的 总 文档 数 ) 除 以 该 词 的 df， 然后 取 log 就 
可 以 了 。idf 因为 是 在 大 量 语料库 中 统计 的 ， 所 以 它 一 般 表 示 一 个 词 的 全 


Fat >> 
局 信息 。 
































5.2 |IG/CHI/MI 
这 几 个 概念 更 多 是 用 在 文本 分 类 的 特征 选择 上 ， 我 们 在 本 节 中 介绍 。 
IG (Information Gain， 信 息 增 益 )， 某 个 特征 点 的 信息 增益 就 是 指 
有 该 特征 和 没有 该 特征 时 ， 为 整个 分 类 系统 所 能 提供 的 信息 量 的 差别 ， 
RD, fig DRS eek at EAN BE AT RE IEE SCA FP I TP TE Jig OS RS S 
差 值 。 




















j=l 


IG(t,) = Eplc,)xver(c,)- 


Pir] dre |t;) xlogP(C; ajro 


j=l 








Se |t,)xlogP(C; a) 


j=l 





Herp, P(C ) 表 示 C, 类 文档 在 语 料 中 出 现 的 概率 ，P(i,) 表 示 语 料 中 包 
含 特征 的 文档 的 概率 ，P(C;j | 表示 文档 包含 特征 时 属于 Cj 类 的 条 件 概 
率 ，P(#) 表 示 语 料 中 不 包含 特征 二 的 文档 的 概率 ，P(C) RAIMA 
含 特征 历时 属于 C 类 的 条 件 概率 ， 

可 以 看 出 ， 一 个 特征 的 信息 增益 其 实 就 是 有 无 该 特征 时 它 对 整个 分 类 
系统 的 重要 度 ， 值 越 高 说 明 该 特征 越 重 要 。 
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CHI (入 统计 量 ， 也 叫 卡 方 检验 )， 是 用 来 衡量 观察 实际 值 O 和 理论 
值 工 的 差异 程度 ， 如 果 大 到 一 定 程度 ， 就 认为 不 太 可 能 是 偶然 或 者 策略 不 
准确 产生 的 ， 也 就 是 说 两 者 实际 是 相关 的 。 在 这 儿 ， 衡 量 的 是 特征 和 类 
别 C 的 相关 联 程度 。 我 们 假设 N 为 语 料 中 的 文档 总 数 ，A 表示 属于 C 类 
且 包 含 特征 的 文档 频率 ，B 表示 不 属于 C 类 但 包含 特征 的 文档 频率 ， 
C 表示 属于 C 类 但 不 包含 特征 志 的 文档 频率 ，D 是 即 不 属于 C 类 也 不 包 
含 右 的 文档 频率 ， 那 么 

-rọ x(AxD-CxB) 
2 (06) Ie 


对 于 全 局 来 说 ， 有 如 下 两 种 计算 方式 











































































































可 以 看 出 ， 某 个 特征 的 CHI 值 越 大 ， 说 明 它 与 该 类 C RAX. 
前 面 举 例 介 绍 的 是 两 个 词 的 MI (Mutial Information， 互 信息 )， 在 这 
儿 就 是 计算 特征 志和 类 别 C 之 间 的 互信 息 。 



































0) PEG AxN 


J 


对 于 全 局 来 说 ， 同 样 有 如 下 两 种 计算 方式 








Ml yay (t;) = max (MI(1,C,)) 


MI sve (0)= YP(c )MI(4C,) 





SE MALE, TUAH, Be BK, RE t AURA C 之 间 的 共 现 
程度 就 越 大 。 
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5.3 PageRank 


作为 一 个 搞 文 本 的 人 士 ， 尤 其 是 与 搜索 引擎 相关 的 ， 如 果 连 PageRank 
都 没 听 说 过 ， 那 真是 太 孤 陋 赛 闻 了 。 就 算是 不 知道 它 的 具体 原理 ， 至 少 听 
说 过 这 个 名 字 吧 ， 这 可 是 Google 的 最 经 典 的 算法 之 一 。 没 关系 ， 看 完 本 
节 ， 你 也 就 知道 PageRank 到 底 是 什么 玩意 了 。 

PageRank 是 用 来 衡量 网 页 重要 性 的 一 个 指标 。 计 算 网 页 重要 性 有 很 
多 方法 ， 如 通过 计算 网 页 本 身 内 容 好 不 好 、 网 页 规 不 规范 、 排 版 好 不 好 
等 等 因素 也 可 以 计算 出 来 一 个 得 分 。 这 种 方法 只 是 利用 了 网 页 本 身 ， 而 
PageRank 则 不 同 ， 它 利用 了 整个 互联 网 络 。 

PageRank 的 核心 思想 就 是 投票 原则 。 互 联网 中 的 网 页 之 间 是 有 链接 
关系 的 ， 也 就 是 说 任何 网 页 有 可 能 和 其 他 网 页 有 链接 关系 〈 要 么 4 J B, 
要 么 4 被 C 指向 )， 这 就 构成 了 一 个 非常 大 的 矩阵 。 如 果 指 向 某 个 网 页 的 
链接 非常 多 且 质 量 很 高 ， 那 么 该 网 页 质量 也 就 很 高 ，4 网 页 链接 到 了 B 网 
页 ， 说 明 4 网 页 给 B 网 页 投了 一 票 。 这 个 思想 很 容易 理解 ， 就 像 投 票 一 样 ， 
HE, HSA PageRank 怎么 计算 呢 ? 
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其 中 ， 网 页 7.,…,7, 链 向 网 页 4，C(4) 表示 网 页 4 的 外 链 数量 ，d 为 
阻尼 系数 (0<d<1), PR(4) 就 表示 网 页 4 的 PageRank 值 。 

从 公式 中 就 可 以 看 出 PageRank 的 思想 ， 但 是 现在 又 有 个 问题 出 来 了 ， 
怎么 计算 ?看 公式 很 容易 想到 的 是 从 代 ， 给 每 个 网 页 一 个 初始 的 PageRank 
值 ， 反 复 迭 代 直 到 收敛 就 得 到 所 有 网 页 最 终 的 PageRank 值 了 。 但 是 问题 
Fe: 这 个 迭代 问题 是 否 真 的 收敛 ?庆幸 的 是 ， 它 的 确 是 收敛 的 ， 大 家 有 兴 
趣 的 可 以 看 下 论文 《Deeper Inside PageRank》 中 的 证 明 。 

至 此 你 已 经 知道 了 什么 是 PageRank J, PageRank 在 实际 计算 的 时 
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5.4 相似 度 计 算 














候 用 的 是 矩阵 形式 ， 那 问题 又 来 了 ， 假 设 有 十 亿 个 网 页 ， 那 么 这 个 矩阵 
就 会 有 一 百 亿 亿 个 元 素 ( 每 个 网 页 自然 可 能 链接 到 其 他 任何 网 页 ， 一 个 
网 页 肯定 是 和 少量 网 页 有 链接 关系 ， 和 绝 大 多 数 都 没有 链接 关系 ， 所 以 
这 个 矩阵 是 个 稀疏 抢 阵 )， 如 此 大 的 矩阵 相 乘 运算 ， 计 算 量 是 非常 大 的 ， 
那么 怎么 解决 呢 ? 就 是 使 用 前 面 讲 的 分 布 式 计算 框架 MapReduce 来 计 
算 了 。 
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5.4 ”相似 度 计算 








相似 度 计算 是 一 个 很 重要 的 东西 ， 大 家 可 以 想 一 想 ， 有 多 少 地 方 可 以 
使 用 到 一 搜索 引擎 中 计算 Query 和 文档 的 相关 度 ? 问答 系统 中 计算 问题 和 
答案 的 相似 度 ? 广告 系统 中 计算 Query 和 广告 词 的 匹配 程度 ”推荐 系统 中 
要 给 某 个 用 户 推荐 某 件 物品 ， 是 否 要 计算 这 件 物品 和 这 个 用 户 兴 趣 的 相似 
EW? 太 多 太 多 了 ， 而 且 我 觉得 高 维 相似 度 在 人 的 认 知 中 也 起 了 很 大 的 作 
用 。 接 下 来 就 介绍 些 相 似 度 计算 的 方法 。 

相似 度 一 定 是 指 两 个 东西 (姑且 分 别 用 Q 和 了 表示 ) 的 相似 程度 ， 而 
这 两 个 东西 可 以 是 任何 形式 的 ， 例 如 文本 、 图 片 、 声 音 等 等 。 最 终 要 计算 
相似 度 ， 那 必须 把 这 些 东西 抽象 成 数学 形式 ， 说 白 了 ， 就 是 怎么 用 数字 把 
这 些 东 西 表示 出 来 ， 一 般 会 表示 成 向 量 或 者 第 阵 。 那 如 果 表 示 成 了 向量 ， 
计算 相似 度 就 可 以 使 用 大 家 在 数学 课 上 学 的 知识 了 。 目 前 来 说 ， 大 致 有 这 
么 两 类 方法 。 

。 距离 方法 

和 常用 的 距离 方法 有 欧 氏 距离 (L, 范 数 )、 曼 哈 顿 距离 CL, 范 数 )、 
明 氏 距离 、 汉 明 距 离 〈 两 个 等 长 子 符 串 对 应 位 置 的 不 同 字符 的 个 数 )、 
Jaccard 相似 系数 (交集 占 并 集 的 比例 )、 距离 ( 相似 系数 )、 
余弦 距离 、 皮 尔 森 相关 系数 、 编 辑 距离 等 。 这 些 所 谓 的 距离 其 实 都 是 一 些 
司 定 的 公式 而 已 ， 关 键 在 于 如 何 应 用 。 编 辑 距离 其 实 和 上 面 的 距离 有 些 不 
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同 ， 它 是 指 两 个 串 ， 由 一 个 变 成 男 一 个 所 需 的 最 少 的 编辑 次 数 ， 这 个 编 
辑 就 包括 蔡 换 、 插 入 、 删 除 操作 。 人 余弦 距 离 是 用 的 比较 多 的 ， 它 的 公式 
如 下 。 





























ye qD, 
"pa 

其 中 ，Q, 和 DD 分 别 为 向 量 所 在 位 的 值 。sim(Q,D) 越 接近 1 越 相似 ， 越 
接近 0 越 不 相似 。 

还 有 皮尔 森 相关 系数 在 推荐 系统 用 的 也 较 多 ， 它 的 公式 如 下 。 

> 2 -D*(D, = 可 
-2 人 > (2: -D 

其 中 ， 纪 和 已 分 别 为 向 量 所 在 位 的 值 ，O 和 万 分 别 是 Q 和 DD 的 平均 值 。 
r(Q,D) 的 范围 是 -1 〈 弱 相关 ) 到 1 〈 强 相关 )。 

e Hash 方法 

Hash 方法 主要 有 minhash 和 simhash. minhash 的 主要 目的 是 降 维 ， 它 
的 主要 原理 是 基于 这 个 结论 : 两 个 集合 经 随机 转换 后 得 到 的 两 个 最 小 hash 
Eee Jaccard 相似 度 。 而 simhash 是 通过 设计 一 个 
hash 方法 ， 使 得 内 容 相 近 的 事物 生成 的 hash 签名 也 相近 ，hash 签名 的 相 
近 程 度 ， 就 反映 出 了 事物 间 的 相似 程度 。 很 少 使 用 这 两 个 算法 来 计算 文本 
相似 度 ， 一 般 都 是 用 于 网 页 去 重 。 去 重 也 算是 相似 度 的 一 种 应 用 ， 越 相似 
的 就 越 是 重复 的 。 

好 了 ， 既 然 学 会 了 这 么 多 计算 相似 度 的 数学 方法 ， 那 么 应 用 到 文本 上 
又 要 怎么 计算 呢 ? 也 是 有 一 些 模型 的 ， 我 从 特征 的 角度 把 它 分 为 如 下 7 种 。 

Bool 模型 

最 早 的 计算 相似 度 的 模型 就 是 
T (QAD) 的 相似 度 ， 它 们 自然 都 是 用 一 些 词组 成 的 ， 怎 么 量化 使 得 可 
计算 呢 ? 那 就 用 向 量 来 表示 ， 比 如 表示 成 CO, 1, …，0，]1， …，0，1， 


sim(Q,D)=cos(2,D)= 






































sim(Q,D) = 
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0…)。 为 什么 向 量 里 面 那么 多 … 呢 ? 这 是 因为 我 们 必须 把 向 量 都 要 统一 起 
来 ， 意 思 就 是 说 ， 哪 个 词 在 向 量 的 哪个 位 置 上 ， 都 必须 是 确定 的 。 要 想 确 
定 ， 那 就 必须 把 所 有 的 汉字 都 按 某 个 序 〈 字 典 序 ) 排出 来 ， 然 后 各 个 词 对 
号 入 座 ， 这 样 整个 向 量 的 长 度 就 是 词典 中 词 的 个 数 。Q 和 了 中 的 每 个 词 分 
别 出 现 在 什么 位 置 那 么 就 给 相应 的 位 置 标记 上 1， 其 他 地 方 都 为 0， 这 样 
表示 成 向 量 之 后 就 可 以 计算 Q 和 DD 的 余弦 相似 度 了 。 真 正 计 算 的 时 候 会 
些 技巧 ， 没 必要 都 写成 这 么 长 的 癌 量 。 
tf*idf 模型 ( 增加 词 权 重 特征 ) 
上 面 的 模型 已 经 可 以 用 来 计算 相似 度 了 ， 但 是 这 时 候 ， 聪 明 的 读者 就 
发 现 问题 了 ， 上 面 模型 中 向 量 只 用 了 词 是 否 出 现 ， 这 样 不 对 啊 ， 有 些 词 重 
， 有 些 词 不 重要 ， 那 么 不 同 的 词 对 计算 相似 度 应 该 要 有 不 同 的 贡献 ， 显 
E O E 那么 就 应 该 改进 ， 这 时 候 
就 有 了 tfid 模型 。Bool 模型 是 只 要 这 个 词 出 现 ， 那 么 它 的 位 置 上 就 是 1， 
否则 就 是 0， 而 tfx*idf 模型 却 有 不 同 ， 只 要 这 个 词 出 现 ， 那 么 它 的 位 置 就 
是 该 词 的 tfx*idf (或 者 归 一 化 后 的 值 )， 否 则 就 是 0。 看 到 了 吧 ， 利 用 了 词 
的 局 部 信息 tf M4 ae idf， 计 算 方法 也 是 余弦 相似 度 ， 即 和 DD 分 别 为 
向 量 所 在 位 的 tfridf( 没 有 出 现 的 词 的 葵 自 然 为 0， 那 么 tdf 也 就 是 0 了)。 
BM25 模型 ( 增加 了 长 度 特征 ) 
tf*idf 模型 相 比 之 前 的 bool 模型 有 了 很 大 的 优化 ， 但 是 这 时 候 又 有 人 
提出 问题 了 ， 既 然 模型 中 用 到 了 tf, AAA FM, ER tf EAT AER, 
也 就 是 说 ， 长 的 句子 会 比 短 的 句子 沾 光 。 有 了 问题 ， 接 着 优化 ， 那 么 就 出 
现 了 更 好 的 模型 BM25 模型 。 BM25 模型 相 比 tfx*idf 模型 ， 多 利用 了 一 ?1 
长 度 特征 ， 大 家 看 它 的 公式 就 会 发 现 ， 在 分 母 有 个 与 长 度 相 关 的 式 子 (有 
些 文献 给 出 的 公式 稍 有 不 同 )。 


SimpM2s (Q,D) = 2 [D| 
if, tk |(1-b)+b | 
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ki b 为 参数 ，|D| 为 文档 长 度 ，avgdl 为 文档 平均 长 度 ， 有 具体 公式 的 i 
解 可 以 参考 一 下 相应 的 论文 ， 例 如 《The Probabilistic Relevance Framework: 
BM25 and Beyond). 

Proximity 模型 ( 增加 了 位 置 特征 ) 

BM25 又 优化 了 不 少 啊 ， 已 经 算 很 不 错 了 。 但 是 又 有 人 说 了 ， 你 这 个 模型 
不 好 啊 ， 如 我 有 个 句子 Q (老大 /的 /幸福 )， 分 别 去 和 两 个 句子 D1 (老大 /的 
/幸福 ) 和 D2 (幸福 / 的 /老大 ) 计算 相似 度 ， 发 现 两 个 的 分 数 一 样 啊 ， 但 是 
很 显然 Q 和 D1 的 相似 度 要 比 Q 和 D2 的 相似 度 要 高 啊 ! 没 错 ， 那 就 接着 优化 ， 
这 时 候 就 出 现 一 些 优 化 算法 了 ， 这 些 优化 算法 又 多 利用 了 一 个 词 的 位 置 特征 。 
如 从 这 篇 论文 《Term Proximity Scoring for Keyword-Based Retrieval Systems》 中 ， 
大 家 可 以 看 到 ， 其 实 它 是 在 BM25 模型 后 面 又 加 了 一 个 与 每 个 词 的 位 置 相关 的 
公式 ， 这 样 FDI 的 相似 度 就 会 比 Q 和 D2 的 相似 度 要 高 。 实 际 使 用 的 时 候 
也 不 一 定 就 严格 按照 论文 的 公式 来 ， 自 己 可 以 设计 不 同 的 位 置 公式 来 计算 。 

语义 特征 模型 ( 增加 了 Topic 特征 ) 

前 面 的 那些 模型 已 经 很 不 错 了 ， 能 解决 大 多 数 问题 了 ， 但 是 又 有 人 提 
出 了 问题 : 你 上 面 的 模型 都 是 关键 词 模型 ， 也 就 是 说 模型 中 的 词 必须 严格 
一 样 ， 例 如 要 想 和 句子 (计算 机 /好 用 ) 匹配 ， 其 他 句子 必须 出 现 “ 计 算 机 ” 
或 者 “好 用 ”， 否 则 得 分 都 是 0， 这 显然 也 不 合理 啊 ? 假设 我 另外 有 个 句子 
(电脑 /耐用 )， 它 和 人 句子 (计算 机 /好 用 〉 相似 度 肯 定 不 应 该 是 0 啊 ， 或 
多 或 少 都 有 一 定 的 相关 度 啊 ! 没 错 ， 这 时 候 就 又 有 人 提出 改进 的 算法 : 语 
义 特征 模型 ， 也 就 是 在 计算 相似 度 的 时 候 加 入 了 语义 特征 ， 最 简单 的 就 是 
同义词 (其 实 任何 两 个 词 之 间 都 有 相似 度 分 数 ， 同 义 词 只 是 个 特例 ， 它 们 
的 相似 度 高 而 已 )。 那 么 怎么 得 到 语义 特征 呢 ?” 回 顾 下 前 面 讲 的 主题 模型 ， 
它 计 算出 了 所 有 的 P(z |d;) 和 P(wj|d;)，z 就 是 主题 。 一 般 很 少 直接 使 用 
语义 模型 ， 而 是 和 关键 词 模型 加 权 。 























































































































































































































sim = ASIM erm (Q,D) + (1-2) simpy (Q, D) 
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ELH Sim tm (Q,D) 就 是 前 面 讲 的 关键 词 模型 ， 而 simrw (Q,D) 就 是 将 要 
讲 的 语义 相似 度 模 型 。 计 算 这 个 simrw (Q,D) 大 致 也 有 这 么 几 种 。 一 种 是 语 
言 模型 。 
simpy (Q,D) = P(QID) =| [P( (wD) 

weQ 


-Tn 











P(w | Zk )p(z, | "| 
weQ 


另 一 种 是 cosine， 不 同 在 于 计算 权重 不 是 使 用 tf*idf， 而 是 使 用 主题 模 
型 的 结果 ， 即 权重 就 是 P(wj|d;)= >) P(w lz )p(zx |d;); 还 有 方法 是 将 
k=1..K 


k=1.K 

































































Q Al D 的 相似 度 看 成 是 它们 主题 分 布 的 相似 度 ， 也 就 是 直接 计算 P(Z1Q) 
和 P(Z|D) 的 相似 度 ， 另外 有 些 模 型 使 用 了 其 他 的 方法 (例如 KL 距离 ) 来 
衡量 (为 什么 两 个 KL， 因 为 KL 不 满足 对 称 性 ， 只 有 这 样 ， 才 可 以 使 得 
simyy (Q,D) 和 simrw (D,Q) 得 分 相同 )。 


simpu (Q,D) =1-S{KL( 1240) | Rap) ) + KLE zp) | Rao)] 

















细节 大 家 可 以 参考 一 些 论文 ， 例 如 《Learning the Similarity of Documents: 
An Information-Geometric Approach to Document Retrieval and Categorization) 
«LDA Based Similarity Modeling for Question Answering) 和 《Regularizing 
Ad Hoc Retrieval Scores}. 

句法 特征 模型 ( 增加 了 句法 特征 ) 

有 了 语义 模型 ， 算 是 改进 不 少 了 ， 但 是 还 有 问题 ， 如 句子 A《〈 我 的 显 
示 器 的 颜色 ) 和 句子 B《〈 我 的 显示 器 变 颜色 )， 用 以 上 的 模型 算 的 分 数 都 
不 低 ， 但 是 这 两 句 话 意思 完全 不 一 样 ， 分 数 不 应 该 高 啊 ! 是 的 。 这 时 候 就 
有 人 加 入 句法 特征 来 优化 了 ， 也 就 是 把 两 个 句子 的 句法 树 的 匹配 程度 考虑 






















































































这 么 多 模型 ， 从 搜索 引擎 关键 词 匹 配 的 程度 来 说 已 经 可 用 性 
非常 高 了 ， 但 是 要 想 计 算 好 真正 意义 上 的 语义 相似 度 其 实 还 是 挺 困 难 的 。 
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深度 表示 模型 ( 增加 语义 特征 ) 

在 讨论 深度 学 习 的 时 候 我 们 讲 过 ， 可 以 把 一 个 词 表 示 成 向 量 ， 也 可 以 
把 句子 表示 成 向 量 ， 句 子 表 示 成 了 向 量 ， 那 么 计算 相似 度 就 容易 了 。 微 
软 的 论文 《Learning Deep Structured Semantic Models for Web Search using 
Clickthrough Data》 就 提出 了 一 种 方法 〈 如 图 5.1 所 示 ) 将 句子 逐 层 表 示 成 
语义 空间 的 特征 向 量 ， 然 后 就 可 以 计算 句子 相似 度 。 
























































___exp(yR(Q, D)) 
Posterior probability P (DIQ) Bye EP (R (Q, D)) 
computed by softmx Z Yp P (D Q) P (D.Q) Pl (2,10) 


R(Q, D) =cosinely, yo) PoP 


R(Q, D,) () 





Relevance measured 
by cosine similarity 
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45.1 























这 类 方法 是 有 监督 的 学 习 方法 ， 需 要 线 下 标注 一 批 相似 问题 对 。D 包括 
D fl {D j=l}, Hp D 是 和 Q 相似 的 问题 D 是 随机 选取 的 和 Q 不 
相似 的 问题 。 目 标 函 数 一 般 选用 的 就 是 会 及 损失 的 变种 max{0m- POQ- 
P(D |Q))。 这 种 抽取 语 料 训练 方法 是 深度 学 习 中 很 重要 的 一 个 技巧 。 

我 们 的 句子 相似 度 算法 是 由 多 个 模型 共同 组 成 的 ， 其 中 两 个 深度 学 习 
模型 一 个 就 是 ReNN 模型 。 简 单 说 下 这 个 模型 ， 大 家 都 知道 句法 分 析 树 的 结 
构 如 下 图 5.2(a) 所 示 ， 我 们 要 在 这 种 句法 关系 上 做 表示 ， 如 图 5.2(b) 所 示 。 

其 中 , x 就 是 每 个 词 的 向 量 ，W 是 每 种 关系 及 每 个 词 对 应 的 参数 ，h 
就 是 隐藏 屋 ， 它 的 计算 公式 如 下 
ieee 5 Wae hh] 


keK(n) 
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5.5 问题 与 思考 


ADV ATT 


OB 
Root 从 地 球 到 月 球 的 距离 是 多 少 


(a) 






R (query, doc2) 















































男 一 个 模型 是 直接 在 用 LSTM 来 表示 句子 向 量 ， 其 他 的 训练 方式 和 目 
标 函 数 都 是 一 样 的 。 

这 类 模型 不 光 可 以 用 来 计算 句子 相似 度 ， 还 可 以 用 来 计算 query 和 doc 
匹配 程度 以 及 对 问题 和 答案 的 相关 程度 等 。 

单纯 使 用 一 个 模型 计算 句子 相似 度 ， 还 是 有 很 多 解决 不 了 的 问题 ， 
所 以 还 要 结合 其 他 模型 (如 词 向 量 、 互 信息 、 同 反义词 等 ) 来 计算 句子 
相似 度 。 



































5.5 ”问题 与 思 
1. PageRank 的 思想 及 计算 公式 是 什么 ? 
2. 相似 度 计算 有 哪些 方法 ? 
3. 语义 相似 度 模 型 有 哪些 优 缺 点 及 如 何 进一步 优化 ? 
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是 Google 这 家 搜索 引擎 公司 的 巨大 成 功 ， 才 把 文本 处 理 相关 的 技 
术 推 向 了 一 个 新 的 高 度 。 其 实 经 过 这 么 多 年 的 发 展 ， 搜 索引 擎 技术 
其 实 已 经 很 成 熟 了 ， 如 果 要 搞 一 个 网 页 搜索 出 来 其 实 难 度 降 低 了 不 少 ， 但 是 要 
把 效果 搞 好 ， 还 是 有 点 门槛 的 ， 那 么 搜索 引擎 到 底 是 什么 东西 呢 ? 这 章 我 们 就 
揭 开 它 的 面纱 ， 我 更 多 是 以 自己 的 理解 和 经 验 从 一 个 实用 的 角度 去 介 








































































































6.1 搜索 引擎 原理 


搜索 引擎 的 工作 原理 是 怎样 的 ? 很 多 人 都 会 告诉 你 一 个 所 谓 的 大 致 流 
Ke: 建 索 引 ， 然 后 读 索 引 ， 归 并 ,计算 相关 性 返回 给 用 户 。 但 是 他 们 并 没 
有 告诉 你 为 什么 是 这 样 的 一 个 流程 ， 也 就 是 大 多 数 人 其 实 知 其 然 不 知 其 所 
以 然 ， 那 么 我 们 就 来 分 析 下 这 个 为 什么 ? 

假设 Q 为 用 户 要 查询 的 关键 词 (Query); Dj 为 所 有 网 页 集合 中 第 i 个 
网 页 ，P(D; |Q) 就 表示 给 定 一 个 Q， 第 i 个 网 页 满足 了 用 户 需 求 的 概率 ， 那 
么 搜索 引擎 干 的 事 就 是 根据 用 户 的 输入 
信息 ， 比 如 行为 、 地 域 等 )， 在 所 有 的 网 页 集合 中 计算 PLD |Q)， 并 排序 
返回 给 用 户 。 如 果 网 页 集合 少 的 话 ， 比 如 几 千 个 ， 那 么 我 们 完全 可 以 按照 前 
















































































































































































6.1 搜索 引擎 原理 








面 介绍 的 相关 性 方法 把 Query 和 每 一 个 网 页 的 相关 性 计算 出 来 ， 然 后 排 个 序 。 
但 是 现在 问题 来 了 ， 现 在 互联 网 上 的 网 页 数量 多 的 惊人 《Goosgle 号 称 索 引 了 
万 亿 量 级 的 网 页 )， 试 想 ， 这 人 么 多 网 页 ， 刚 才 那 种 方法 计算 量 太 大 ， 必 然 行 
不 通 ， 因 为 绝 大 多 数 网 页 是 和 用 户 查 询 不 相关 的 ， 不 需要 去 计算 ， 那 么 就 要 
想 办 法 解决 这 个 问题 (过 滤 掉 不 相关 的 网 页 )? 既然 没 办 法 直接 计算 PLDQ)， 
那么 就 计算 它 的 等 价 形式 或 者 近似 形式 (这 是 搞 研究 很 重要 的 一 个 方法 ， 想 
想 看 前 面 哪些 机 器 学 习 模 型 也 用 到 了 这 个 方法 )， 使 用 贝 叶 斯 公式 
P(QID,)P(D,) 
P(Q) 




























































































PDQ) = 


我 们 分 析 下 右边 式 子 的 各 个 因子 。 

P(Q): 它 只 与 Query 自身 有 关 ， 对 于 同一 个 Query 来 说 ， 它 都 是 一 样 
的 ， 所 以 我 们 就 可 以 不 计算 这 个 值 了 。 但 是 这 个 因子 对 分 析 整 个 Query 来 说 
还 是 有 用 的 ， 对 于 热门 Query，P(Q) 较 大 ， 必 须 使 右边 式 子 的 分 子 更 大 才能 
满足 用 户 需求 ， 也 就 是 说 对 排序 要 求 越 高 ， 相 反 ， 对 于 冷门 Query，P(Q) 较 
小 ， 右 边 式 子 的 分 子 不 用 太 大 都 能 满足 用 户 需 求 ， 也 就 是 说 对 排序 要 求 较 
低 。 其 实 很 容易 理解 ， 例 如 用 户 搜 “腾讯 网 ”( 热 门 Query)， 如 果 哪 个 搜索 
引擎 第 一 条 不 是 腾讯 网 的 首页 链接 ， 那 么 这 个 搜索 引擎 的 效果 就 太 差 了 ， 没 
法 容忍 ， 假如 用 户 从 某 处 复制 了 一 串 很 长 的 文字 (冷门 Query)， 放 到 了 搜 
索引 擎 中 去 搜 ， 那 么 只 要 搜索 引擎 能 返回 包含 该 串 的 结果 就 行 了 ， 至 于 排 到 
第 一 位 还 是 第 二 位 或 是 其 他 位 置 ， 只 要 不 是 太 靠 后 ， 其 实 都 是 可 以 接受 的 。 

P(D;): 第 i 个 网 页 的 重要 程度 ， 这 个 因子 就 非常 好 ， 因 为 它 与 用 户 查 
询 无 关 ， 完 全 可 以 线 下 计算 好 ， 还 记得 前 面 讲 的 PageRank 吗 ? 这 个 值 你 
就 可 以 简单 地 认为 就 是 网 页 的 PageRank 值 〈 现 在 的 搜索 引擎 其 实 还 是 融 
入 了 很 多 其 他 计算 因素 ， 可 以 认为 PageRank 现在 只 是 其 中 的 一 个 特征 )。 

P(QID;): 这 个 因子 可 以 理解 为 ， 已 知 一 个 给 定 的 网 页 满足 了 用 户 的 
需求 ， 那 么 用 户 的 查询 是 q 的 概率 ， 这 个 值 反映 的 是 一 个 网 页 满足 不 同 需 
求 之 间 的 比较 。 但 是 这 个 值 也 很 难 直 接 计 算 ， 因 为 没 办 法 穷 举 出 所 有 的 
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Query， 怎 么 办 ? 我 们 假设 Query 是 由 若干 个 词组 成 〈Q = tn) WA 














P(QID,) = P(t,,...,t,|D;) 
一 种 策略 ， 如 果 我 们 认为 6 ，…， t 之 间 相互 独立 ， 那 么 就 有 





P(QD, =P tits lD; ) = P(t |D; )P (tlD;)...P(t, 9.) 


看 到 了 吗 ? 后 边 式 子 只 与 单个 的 词 有 关 ， 从 Query 级 别 转 换 成 词 级 
别 就 意味 着 可 以 线 下 计算 了 《从 工程 的 角度 ， 把 线 上 的 计算 移 到 线 下 计算 
也 是 优化 的 方法 之 一 )， 因 为 每 个 网 页 也 都 是 词组 成 的 ,P(ti|D; )P(t2|D;),…,， 
P(t,|D;) 都 可 以 线 下 计算 好 存 起 来 ， 需 要 的 时 候 取 出 来 就 可 以 了 ， 同 一 个 词 t 
会 在 若干 个 文档 中 出 现 ， 那 么 只 要 按 某 一 种 方式 存储 起 来 ， 就 可 以 一 次 全 部 取 
出 来 t 所 在 的 所 有 文档 ， 这 种 存储 方式 就 叫 索 引 。 这 下 明白 为 什么 要 建 索 引 了 
吧 ! 一 个 Query 由 若干 个 词组 成 ， 上 面 的 假设 t1,…,ty 之 间 相 互 独立 只 是 其 中 一 
种 分 解 策略 ， 根 据 具 体 的 情况 还 会 有 不 同 的 分 解 策略 ， 如 某 些 词 必 须 合 并 到 一 
起 ， 某 些 词 可 以 替换 成 男 外 的 词 等 等 ， 这 些 都 是 Query 分 析 及 页 面 分 析 要 完成 
的 事情 ， 无 论 运 用 哪 种 或 者 多 种 分 解 策 略 ， 都 可 以 分 别 将 它们 查 到 的 结果 (每 
一 种 策略 的 结果 叫 一 个 队列 ) ， 按 它们 满足 各 自 查 询 的 概率 最 终归 并 起 来 。 

以 上 这 种 解释 书籍 上 把 它 叫做 概率 语言 模型 。 这 也 是 我 比较 喜欢 的 一 
个 模型 ， 因 为 它 回答 了 很 多 为 什么 。 大 家 知道 ， 计 算 语言 模型 需要 平滑 
(如 果 某 个 P(tlD)= 0， 则 整个 得 分 就 为 0) ， 但 是 很 多 商用 引擎 很 少 使 用 
平滑 技术 ， 而 是 用 Query 分 析 来 处 理 。 

从 上 面 的 式 子 读者 就 会 说 搜索 引擎 相关 性 最 重要 的 就 是 计算 P(QlD;) 
和 PLD )， 不 准确 ! 还 有 一 个 比较 重要 的 ， 就 是 左边 的 那个 式 子 P(D,|Q)， 
也 许 ， 你 会 问 左边 那个 不 是 不 好 计算 吗 ? 能 计算 的 话 ， 还 用 右边 的 式 子 干 
什么 呢 ? 解释 一 下 ， 大 家 看 到 由 于 右边 式 子 中 的 P(QID:) 不 好 计算 ， 所 以 
对 它 进行 了 变形 ， 例 如 

POD = P(t ta lD; =P (GID, )P (t31D; ) P (tlD;) 
这 个 式 子 是 有 个 前 提 的 ， 就 是 认为 之 间 相 互 独立 ， 这 是 个 假设 。 
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换 句 话说， 右边 式 子 要 想 能 计算 必须 在 某 个 假设 (上面 假设 只 是 其 中 一 种 ) 
下 ， 假 设 意味 着 和 实际 是 有 区 别 的 ， 所 以 得 有 个 方法 来 修正 不 在 假设 范围 
内 的 情况 。 因 此 如 果 直 接 计 算 P(D;IQ)， 哪 怕 方 法 很 简单 都 会 有 很 大 的 帮助 ， 
如 果 不 知道 所 有 的 Query， 解 决 一 部 分 Query 也 可 以 ， 那 用 什么 方法 呢 ? 点 
击 ! 现在 搜索 引擎 都 会 记录 用 户 在 哪个 Query 下 点 击 了 哪些 网 页 ， 以 及 顺 
序 、 时 间 、 停 留 时 长 等 。 最 简单 的 情况 ， 给 定 一 个 Query，P(DiIQ) 是 不 可 以 
用 所 有 用 户 在 该 Query 下 点 击 第 i 个 文档 的 次 数 来 表示 ， 点 的 越 多 说 明 该 文 
档 越 能 满足 用 户 需 求 ， 实 际 使 用 中 是 按照 点 击 在 已 有 相关 性 上 调 权 ， 而 不 是 
直接 用 来 排序 。 点 击 调 权 在 排序 列表 均 是 同类 数据 的 情况 下 是 很 有 效果 的 ， 
日 是 对 于 排序 列表 是 由 不 同类 数据 组 成 的 情况 ， 就 会 有 问题 一 一 某 些 类 数据 
就 会 因为 点 得 越 多 而 排 得 越 高 ， 排 得 越 高 进而 点 得 越 多 ， 其 他 类 数据 就 会 吃 
亏 。 这 其 实 就 是 开发 和 探索 问题 (Exploitation & Exploration)， 开 发 在 于 充 
分 利用 好 已 有 信息 ， 探 索 在 于 给 新 信息 一 些 机 会 ， 如 何平 衡 二 者 是 要 解决 的 
问题 ， 通 常 来 说 ， 业 务 稳定 了 会 侧重 开发 ， 业 务 发 展 中 会 侧重 于 探索 。 


6.2 ”搜索 引擎 架构 

知道 了 搜索 引擎 原理 ， 那 么 整个 搜索 引擎 的 工作 流程 是 怎么 样 的 呢 ? 
抛 开 数 据 存 储 、 数 据 传输 和 日 志 存 储 等 工程 任务 后 ， 框 架 如 图 6.1 所 示 ， 
主要 分 为 线 下 计算 和 线 上 计算 两 大 模块 。 

线 下 模块 
疏 虫 会 从 互联 网 上 抓 取 所 有 网 页 ， 抓 取 下 来 之 后 就 要 做 很 多 事情 : 网 
页 解析 、 权 重 计算 〈 主 要 是 term 权重 计算 和 文档 综合 计算 )， 然 后 要 对 网 
页 建立 索引 ， 一 般 网 页 是 要 分 库 分 机 来 建 索引 的 。 

线 上 模块 

当 用 户 输 入 一 个 Query 之 后 ， 它 首先 会 发 到 主 控 模 块 〈 
Control), ， 该 模块 接着 会 把 Query 输入 给 Query 分 析 模 块 (QA, Query 
Analysis) ， 然 后 获得 Query 分 析 结 果 ， 之 后 把 所 有 这 些 信息 发 给 每 一 个 基 
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础 搜索 模块 (BS, Basic Search)。 搜 索 模块 就 会 从 每 个 索引 库 (index)〉 中 
读 相 关 的 索引 并 且 归 并 完成 初步 第 选 ， 并 且 在 BS 中 通过 基础 相关 性 计算 
来 完成 二 次 筛选 ， 将 结果 返回 给 主 控 模 块 ， 主 控 模 块 这 时 候 还 要 经 过 高 端 
HEF CAR, Advance Rank， 主 要 是 不 同 维度 的 子 排序 模型 ) 进行 rerank， 
最 后 从 摘要 库 CAD, Abstract Data) 里 把 相应 的 摘要 获取 到 一 并 将 结果 返 
回 给 用 户 。 这 就 是 整个 搜索 的 流程 。 


















































6.1 











6.3 搜索 引擎 核心 模块 


搜索 引擎 涉及 的 内 容 很 多 ， 在 这 节 中 ， 我 们 只 看 下 几 个 核心 模块 都 干 
些 什么 事情 。 

Me oa 
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就 像 是 虫子 在 网 络 上 扑 一 样 ， 它 的 要 求 就 是 抓 得 尽 可 能 全 ， 尽 可 能 得 快 。 
还 记得 前 面 说 过 整个 网 络 因 为 链接 构成 了 一 个 图 ， 既 然 是 一 个 图 ， 遍 历 图 
的 方法 就 有 两 种 : 深度 遍历 和 广度 遍历 。 所 以 爬虫 一 般 的 工作 方式 就 是 ， 
首先 给 定 一 些 初始 链接 种 子 ， 然 后 对 这 些 链接 进行 深度 或 者 广度 遍历 来 获 
得 更 多 的 链接 ， 直 到 把 整个 网 络 都 看 取 下 来 。 这 里 有 个 问题 需要 注意 ， 就 
是 不 要 反复 再 去 抓 取 已 经 抓 取 过 的 链接 。 

网 页 解析 计算 

这 个 过 程 包括 : 网 页 解析 、 权 重 计算 、 索 引 生 成 。 

网 页 解析 。 抓 取 下 网 页 之 后 ， 得 到 的 其 实 是 原始 网 页 内 容 ， 那 么 就 需 
要 对 它 解 析 ， 目 的 是 去 掉 无 用 的 信息 ， 得 到 真实 内 容 。 这 个 过 程 包括 格式 
转换 (网 络 上 会 有 不 同 格式 例如 html、doc、pdf 等 的 文件 )、 去 掉 html 以 
及 广告 等 标签 ， 最 终 解析 出 网 页 标题 、 正 文 等 等 。 

权重 计算 。 权 重 计算 主要 包括 这 么 几 个 步 又 : term 权重 计算 和 文档 综 
合 。term 权重 计算 相当 于 计算 term 和 该 网 页 之 间 的 相关 度 〈 就 是 前 面 说 的 
P(t |D;))。 不 同 的 词 出 现在 不 同 的 位 置 ， 它 的 重要 程度 就 不 一 样 ， 比 如 在 
title 中 就 比 在 正文 中 出 现 要 重要 ， 就算 都 出 现在 正文 中 ， 由 于 词 在 不 同位 
置 或 者 有 不 同 的 标签 ， 也 会 对 它 的 权重 计算 有 影响 。 总 之 ， 计 算 term 权重 
考虑 的 特征 就 是 页 面 特征 ， 如 title、 正 文 和 各 种 html 标签 等 。 文 本 特征 包 
括 女 、idf、 位 置 等 等 。 语 义 特征 包括 实体 词 、 词 关系 、 上 下 文 信息 、topic 
和 embedding 向 量 等 。 文 档 综 合计 算 就 是 计算 该 网 页 文档 的 一 些 不 同 维度 
的 得 分 ， 如 时 间 因 子 、 文 档 质 量 、 网 页 主题 、 超 链 权 重 (PageRank) 等 ， 
这 些 信息 会 进一步 用 在 子 排序 模型 。 

索引 生成 。 要 索引 进 库 的 不 光 是 文档 的 原始 term， 还 可 以 进行 索引 扩 
FÆ, Xİ term 的 同义词 、 相 关 词 、bigram 等 (不 同 的 搜索 引擎 有 不 同 的 扩 
充 策 略 ) 也 要 进行 索引 ， 最 终生 成 索引 库 。 因 为 数据 量 太 大 ， 索 引 库 一 般 
是 要 分 库 的 。 分 库 分 为 两 个 维度 : 横向 和 纵向 。 不 同 的 搜索 引擎 会 有 不 同 
等 级 的 分 库 法 ， 但 是 总 的 原则 就 是 分 为 高 质量 库 和 低 质量 库 ， 其 实 就 像 个 
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金字 塔 ， 塔 上 面 是 高 质量 库 且 网 页 数量 少 ， 塔 下 面 是 低 质量 库 且 网 页 数量 
大 。 纵 向 就 是 指 先 在 高 质量 库 中 检索 ， 如 果 满 足 需求 就 返回 ， 否 则 再 去 低 
质量 库 中 检索 。 不 管 是 高 质量 库 还 是 低 质量 库 都 有 很 大 的 数据 量 ， 不 可 能 
一 台 机 器 搞定 ， 所 以 要 把 它们 分 成 小 库 分 别 部 署 到 不 同 的 机 器 上 。 上 所谓 横 
向 就 是 去 检索 高 质量 库 或 者 低 质 量 库 的 时 候 ， 会 去 同时 检索 每 台 机 器 的 小 
库 〈 高 质量 库 或 低 质 量 库 均 分 别 拆 分 成 知 干 个 小 库 ) ， 然 后 汇总 归并 。 后 
面 将 会 介绍 索引 结构 。 

以 上 讲 的 都 是 线 下 需要 完成 的 一 些 工作 ， 下 面 我 们 再 看 看 线 上 需要 做 
哪些 工作 。 

Query 分 析 模 块 QA) 

Query 分 析 在 搜索 引擎 中 是 很 重要 的 一 个 模块 。 它 的 主要 职责 就 是 对 
用 户 输入 的 Query 进行 各 种 分 析 计 算 供 下 游 检 索 使 用 。 它 主要 包括 如 下 几 
个 模块 。 

1.term 级 别 分 析 

term 级 别 主要 包括 这 么 几 个 任务 : 分 词 / 专 名 识别 、term 重要 性 、 
term 紧密 度 。 

分 词 / 专 名 识别 。 对 中 文 的 处 理 ， 分 词 肯 定 是 少不了 的 。 专 名 识别 方 
法 包括 词 表 识别 (影视 名 、 音 乐 名 等 ) 和 机 器 学 习 识 别 ( 人 名 、 地 名 、 机 
构 名 等 )， 还 记得 前 面 讲 的 CRE 模型 吗 ? 专 名 识别 的 主要 用 处 其 实 还 是 在 
后 面 要 介绍 的 term 紧密 度 上 。 

term 重要 性 计算 。 一 个 Query 会 包含 多 个 term， 那 么 就 要 给 每 个 term 
计算 一 个 权重 ， 权 重 越 高 越 重要 。 一 般 来 说 计算 一 个 term 的 重要 性 使 用 的 
方法 都 是 tf*idf， 女 是 局 部 信息 ，idf 是 全 局 信息 ， 但 是 在 Query 中 一 般 来 
Ui tf Ae 1 如果 使 用 tfsidf 的 话 ， 相 当 于 只 是 使 用 了 idf， 效 果 肯 定 不 好 ， 
所 以 优化 的 思路 都 是 根据 Query 的 特点 对 “tf” 进 行 优化 ， 也 就 是 用 某 一 
些 方法 计算 局 部 信息 ， 然 后 和 idf 相 乘 。 而 且 计算 term 重要 性 其 实 是 对 
Query 中 的 各 个 term 进行 一 个 排序 ， 自 然 也 可 以 使 用 机 器 学 习 模 型 来 计算 。 
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计算 出 来 term 重要 性 之 后 ， 它 有 什么 作用 呢 ? 一 是 用 来 计算 相关 性 ， 二 是 
对 不 重要 的 词 可 以 省 略 掉 ， 不 用 下 发 下 去 ， 这 样 就 能 扩大 召回 候选 集合 ， 
如 果 这 个 操作 太 激 进 的 话 ， 有 可 能 会 召回 一 些 语义 漂移 的 候选 集合 ， 所 以 
为 了 避免 这 种 情况 ， 有 两 种 做 法 : 一 是 提升 省 略 的 效果 ; 二 是 进行 二 次 召 
回 ， 也 就 是 一 次 正常 召回 不 够 的 情况 下 再 进行 省 略 召 回 。 

tem 紧密 度 。term 紧密 度 是 用 来 计算 term 之 间 的 位 置信 息 的 。 举 例 
来 说 ， 有 个 Query 是 “老大 的 幸福 在 线 观 看 ”( 分 词 结果 为 老大 /的 /幸福 
/在 线 / 观 看 )， 在 这 个 Query 中 ,“ 老 大 的 幸福 ”就 是 最 紧密 的 ， 因 为 它 是 
个 专 有 名 词 ( 电 视 剧 名 )。 这 意味 着 召回 的 结果 中 ， 它 们 必须 合并 到 一 起 ， 
不 能 分 开 ;“ 在 线 / 观 看 ”是 其 次 紧密 的 ， 召 回 的 结果 中 ， 它 们 尽量 合并 到 
一 起 ， 分 开 也 可 以 接受 :“ 老 大 的 幸福 ”和 “在 线 观 看 ”是 不 紧密 的 ， 召 
回 的 结果 中 ， 这 两 个 短语 间 可 以 出 现 其 他 词语 。 看 到 了 吧 ! term 紧密 度 也 
是 用 来 相关 性 排序 的 ， 检 索 出 来 的 文档 中 相应 term 的 紧邻 关系 也 要 尽 可 能 
和 Query 中 的 保持 一 致 ， 越 一 致 的 自然 更 好 。 

2. Query 级 别 分 析 


































































































































































































































































































Query 级 别 分 析 最 主要 包括 这 么 几 个 任务 : Query 意图 识别 、Query 时 
效 性 判断 ， 当 然 还 有 地 域 信息 、 属 性 归 一 等 。 

Query 意图 识别 。 Query 意图 识别 说 白 了 就 是 看 该 Query 是 什么 类 别 的 ， 
例如 是 视频 需求 ， 是 百科 需求 ， 还 是 小 说 需求 等 等 ， 因 为 不 同 的 类 别 对 相 
应 的 网 页 有 不 同 的 提 权 。 一 般 Query 意图 识别 的 方法 有 这 么 几 种 : (1) 模 
板 匹 配 ; (D 基于 分 类 思想 的 识别 方法 ; (3) 根据 点 击 反馈 的 判别 方法 。 
Query 时 效 性 判断 。 时 效 性 一 般 分 为 三 种 ， 泛 时 效 性 、 周 期 时 效 性 、 突 
发 时 效 性 。 泛 时 效 性 是 指 有 些 Query 永远 具有 时 效 性 特性 ， 如 减肥 、 财 报 
等 ， 永 远 是 越 新 越 好 ;周期 时 效 性 是 指 具 有 周期 性 的 事件 ， 如 高 考 、 世 界 
杯 等 ， 突 发 时 效 性 是 指 突然 发 生 的 事件 ， 如 哪里 又 发 生 军 事 冲 突 了 ， 哪 里 
又 发 生地 震 灾 害 了 等 等 。 前 两 个 时 效 性 根据 历史 信息 是 可 以 积累 挖掘 的 ; 
突 发 时 效 性 可 以 根据 Query log 的 分 布 变 化 或 者 一 些 社交 平台 的 爆发 或 者 
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文档 主题 变化 等 渠道 检测 出 来 。 与 时 效 性 差不多 的 ， 还 有 个 地 域 性 判断 。 

3. Query 变 换 

Query 变换 其 实 也 是 属于 Query 级 别 的 分 析 ， 但 是 它 比 较 重要 。Query 
变换 说 简单 点 就 是 一 个 Query 可 以 蔡 换 成 男 一 个 Query 而 不 改变 原来 的 意 
思 ， 主 要 包括 : 同 义 改 写 、 纠 错 改写 、 省 略 变换 等 。 

同 义 改 写 。 同 义 改 写 其 实 是 指 Query 中 某 些 term 可 以 替换 成 其 他 同 义 
的 term 而 不 影响 这 个 句子 的 意思 ， 例 如 “招商 银行 官网 ” 改 为 “招行 官网 ”。 
纠 错 改写 。 纠 错 改写 是 指 Query 中 有 些 是 用 户 输 错 的 ， 需 要 根据 用 户 的 
意图 把 它 改写 正确 ， 例 如 , “天 龙 八 步 在 线 观 看 ” 改 为 “天 龙 八 部 在 线 观 看 ”。 
省 略 变换 。 省 略 变换 是 指 Query 中 有 些 词 省 略 之 后 不 影响 整个 意思 ， 
例如 “招行 客服 电话 ” 改 为 “招行 电话 ”。 

HX Query 变换 不 管 哪 种 变换 ， 技 术 都 是 一 样 的 ， 目 的 都 是 term A 蔡 
换 成 term B 后 整个 句子 的 意思 没有 变化 ， 省 略 变换 其 实 就 是 term A HK 
成 室 ， 是 一 个 特例 而 已 。 在 Query 变换 中 一 定 要 强调 的 是 ，Query 变换 一 
定 是 句子 级 别 的 替换 ， 和 否则 会 出 现 严 重 的 badcase。 例 如 “南航 网 上 值 机 ?” 
如 果 蔡 换 成 “南京 航空 航天 大 学 网 上 值 机 ”就 是 错误 的 ， 意 思 偏 离 了 〔 南 
航 的 同义词 是 南京 航空 航天 大 学 和 中 国 南方 航空 )。 大 多 数 搜索 引擎 的 蔡 
换 其 实 都 不 是 句子 级 别 的 蔡 换 ， 有 的 直接 蔡 换 成 同义词 然后 去 读 索 引 ， 然 
后 对 同 义 结果 降 权 ， 这 其 实 是 不 好 的 处 理 方 法 ， 因 为 会 引入 一 些 噪声 给 
排序 增加 了 困难 。 既 然 Query 变换 是 句子 级 别 的 ， 那 就 相当 于 是 一 个 新 
的 Query， 既 然 是 新 的 Query， 那 就 像 对 待 原 Query 一 样 去 检索 ， 不 同 的 
Query 召回 的 结果 放 到 不 同 的 队列 中 ， 最 后 根据 权重 归并 起 来 。 

Query 变换 技术 其 实 和 机 器 翻译 有 点 类 似 ， 给 某 个 Query S， 找 到 最 佳 
的 替换 Query T 的 模型 就 是 


















































































































































































































































































































































T =argmax,,P(S|T)P(T) 





其 中 PT) 就 是 语言 模型 ，P(SIT) 就 是 Query T EH Query S 的 转换 
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概率 。 这 样 就 遇 到 了 和 机 器 翻译 差不多 的 一 些 问题 : 蔡 换 对 的 挖掘 及 概率 
计算 、 语 言 模型 的 参数 估计 、 最 优 解 的 搜索 算法 等 等 。 

主 控 模 块 ( MC ) 

主 控 模 块 它 主要 的 职责 就 是 调度 。 调 度 其 实 比 较 好 理解 ， 它 把 接收 到 
的 用 户 Query， 发 给 QA， 获 得 Query 分 析 结 果 ， 然 后 把 结果 发 给 BS 模块 ， 
获得 结果 ， 然 后 进行 高 端 排序 ， 然 后 从 AD 模块 中 获得 摘要 信息 ， 返 回 给 
用 户 。 

高 端 排序 (AR ) 

在 MC 模块 中 ， 已 经 拿 到 了 各 个 BS 模块 返回 的 结果 。 这 时 就 可 以 对 

返回 的 候选 集合 进行 高 维度 排序 ， 主 要 是 在 BS 返回 得 分 的 基础 上 进 

行 一 些 不 同 维度 的 子 排序 模型 ， 因 为 在 这 个 模块 可 以 拿 到 更 多 的 信息 ， 而 
且 大 多 会 加 大 参考 Query 分 析 的 信息 ， 大 概 有 这 么 多 的 模型 : 页 面 质量 调 
PL. Query 需求 调 权 、 时 效 性 调 权 、 多 样 性 调 权 、 权 威 度 调 权 、 点 击 调 权 
等 等 。 点 击 模型 算是 很 重要 的 一 个 模块 了 ， 它 需要 线 下 对 Query 的 点 击 行 
为 做 很 多 计算 。 它 有 好 几 种 模型 ， 读 者 可 以 参考 下 这 篇 文章 《A Dynamic 
Bayesian Network Click Model for Web Search Ranking》， 其 中 对 DBN 模型 
讲 的 非常 清楚 。 

还 记得 前 面 说 的 每 个 Query 变换 结果 返回 一 个 队列 ， 那 么 返回 的 结果 
就 会 有 多 个 队列 (刚才 讲 的 子 排序 模型 就 是 分 别 作 用 在 每 个 队列 上 )， 这 
就 需要 进一步 的 业务 调 权 (这 个 就 是 最 后 的 排序 模型 )， 包 括 多 队列 PK 和 
人 工 规则 调 权 (例如 多 样 性 ,，《Diversifying Search Results》)。 

基础 检索 模块 ( BS ) 

基础 检索 模块 也 是 非常 重要 的 模块 ， 它 负责 把 结果 从 索引 库 中 召回 并 
按照 相关 性 返回 给 MC 模块 。 但 是 大 型 搜索 引擎 并 不 是 像 6.1 WIZ 
那样 ， 计 算 相 关 性 返回 给 用 户 ， 因 为 计算 量 太 大 ， 相 反 它 们 是 逐步 租 选 有 
返回 给 用 户 。 

BS 模块 首先 从 索引 库 中 读 取 索引 ， 并 且 归 并 ， 获 得 初步 的 候选 集 (一 
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般 是 万 数量 级 )， 然 后 就 会 进行 一 次 过 滤 。 一 次 过 滤 其 实 就 是 使 用 很 简单 
的 模型 (BM25 等 ) 进行 粗 排 ， 因 为 计算 量 大 ， 所 以 方法 不 能 太 复 杂 ， 这 
时 获得 Top N《〈 一 般 是 于 数量 级 ) 的 结果 进入 到 二 次 过 滤 。 二 次 过 滤 是 计 
算 更 完善 的 相关 性 模型 进行 精 排 ， 主 要 这 几 个 特征 : (1) term 权重 * 位 置 
信息 ，term 权重 其 实 就 是 Query 分 析 时 计算 的 权重 和 线 下 计算 term 权重 的 
平均 (一 般 搜索 引擎 的 相似 度 只 到 了 proximity 层面 ， 即 权重 和 位 置 层面 ， 
可 以 回顾 下 前 面 的 相似 度 计算 ); (2) 语义 信息 ， 如 主题 的 匹配 程度 、 核 
心 词 的 匹配 程度 等 ，(3) 文档 质量 ， 如 文档 页 面 质量 、 文 档 时 间 因 子 等 ; 
前 两 次 筛选 其 实 是 在 单 库 〈 记 得 前 面 说 过 index 是 分 库 的 吗 ) 内 进行 ， 这 
样 BS 模块 就 得 到 了 最 终 的 URL 列表 。 

总 结 一 下 ， 就 是 BS 模块 会 进行 召回 、 粗 排 和 精 排 三 个 操作 ， 越 到 后 
面 返 回 的 候选 集合 越 少 ， 计 算 模 型 也 越 复杂 ， 到 了 AR 模块 就 是 rerank, 
包括 不 同 维度 的 子 排序 模型 调 权 和 业务 规则 调 权 。 

这 里 可 以 看 到 ， 精 排 的 时 候 计 算 了 很 多 特征 ， 一 种 方法 是 人 工 设 定 参 
数 来 排序 ， 自 然 会 有 不 少 参 数 ， 而 调 参 又 是 很 头疼 的 一 件 事 情 ， 于 是 ， 人 
们 就 很 自然 想到 用 机 器 学 习 来 解决 这 个 问题 。 还 记得 前 面 讲 的 最 优化 问题 
和 机 器 学 习 吗 ? 这 里 介绍 的 另 一 种 方法 就 是 Leaning to Rank， 用 排序 学 习 
的 方法 来 处 理 ， 如 图 6.2 所 示 。 
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它 的 模型 主要 有 3 种 : Pointwise、Pairwise 和 Listwise。 说 白 了 就 是 
把 排序 模型 转换 成 分 类 或 者 回归 机 器 学 习 最 容易 搞定 的 问题 ， 特 征 就 包括 
Query 和 doc 的 特征 以 及 相关 的 一 系列 特征 ，Leaning to Rank 的 论文 已 经 
很 多 了 ， 稍 微 有 点 机 器 学 习 基 础 ， 就 可 以 很 容易 看 懂 它 的 原理 。 在 这 儿 简 
单 说 下 这 三 个 模型 。 

(1) Pointwise 方法 的 主要 思想 是 将 排序 问题 转化 为 多 类 分 类 问题 或 
者 回归 问题 ， 也 就 是 将 〈Query，di) 的 标注 结果 (一 般 5 label, BH 
Perfect=5, Excellent=4, Good=3, Fair=2, Bad=1) 作为 一 个 类 别 。 这 就 有 个 假 
设 ， 就 是 Query 独立 的 ， 即 只 要 (Query, document) 的 相关 度 相 同 ， 例 如 
都 为 “perfect”， 那 么 它们 就 被 放 在 同一 个 类 别 里 ， 即 属于 同一 类 的 实例 ， 
而 无 论 Query 是 什么 。 这 种 方法 比较 简单 ， 而 且 没 有 考虑 顺序 信息 ， 考 虑 
的 是 全 局 相关 性 ， 所 以 对 有 明确 目的 的 搜索 来 说 效果 并 不 是 很 好 。 实 现 
Pointwise 方法 的 有 McRank、 其 他 判别 模型 等 ， 而 CTR 预 估 一 般 用 的 就 是 
这 类 模型 。 

(2) Pairwise 方法 的 主要 思想 是 将 排序 问题 转化 为 二 元 分 类 问题 。 对 
于 同一 个 Query， 在 它 的 所 有 相关 文档 集 里 ， 对 任何 两 个 不 同 label 的 文档 ， 
都 可 以 得 到 一 个 训练 实例 对 ， 例 如 (dl1，d2) 分 别 对 应 label 为 5 和 3， 那 么 
对 于 这 个 训练 实例 对 ， 给 它 赋予 类 别 +1 〈5$>3)， 反 之 则 赋予 类 别 -1。 于 是 ， 
按照 这 种 方式 ， 我 们 就 得 到 了 二 元 分 类 器 训练 所 需 的 样本 了 。 该 方法 不 再 是 
Query 独立 的 ， 因 为 它 只 对 同一 个 Query 里 的 文档 集 生 成 训练 样本 。 但 是 它 
也 有 缺点 ， 例 如 Query] 对 应 的 相关 文档 集 大 小 为 6，Query2 对 应 的 相关 文 
档 集 大 小 为 1000， 那 么 从 后 者 构造 的 训练 样本 数 远 远 大 于 前 者 ， 从 而 使 得 
分 类 器 对 相关 文档 集 小 的 Query 所 产生 的 训练 实例 区 分 不 好 。 实 现 Pairwise 
方法 的 有 RankSVM， 还 有 RankNet、Frank、RankBoost 和 GBRank 等 。 

(3) Listwise 方法 的 主要 思想 是 直接 对 排序 指标 (例如 
会 具体 介绍 ) 进行 优化 ， 也 就 是 把 某 个 Query 及 其 整个 排序 结果 作为 一 个 
样本 。 对 于 一 个 给 定 的 Query， 以 及 其 对 应 的 document list， 现 在 已 经 得 
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到 了 一 个 标注 好 的 分 数列 表 z 例 如 ， 每 个 文档 的 点 击 率 等 )， 然 后 采用 
某 种 排序 函数 f 给 每 个 document 打分 ， 得 到 一 个 预测 排序 得 分 列表 y， 然 
后 再 采用 某 种 函数 来 作为 损失 函数 L(z,y)。 实 现 Listwise 方法 的 有 ListNet、 
SVM-MAP、LambdaRank、LambdaMART 等 。 

现在 不 少 搜索 引擎 都 已 经 开始 加 入 了 Leaning to Rank 方法 ， 但 并 不 是 
直接 用 一 个 Learning to Rank 排序 就 完了 ， 而 是 用 它 来 计算 一 些 高 级 特征 
从 最 上 层 排序 使 用 。 

我 们 介绍 下 比较 常用 的 LambdaMART 模型 。 这 个 模型 其 实 是 由 
LambdaRank 衍化 而 来 ， 而 LambdaRank 又 是 由 了 RankNet 优化 来 的 。 我 们 
就 从 头 开始 讲 ，RankNet 是 微软 在 论文 《Learning to Rank using Gradient 
Descent》 中 提出 来 的 ， 它 是 从 概率 的 角度 来 解决 排序 问题 ， 是 以 错误 pair 
最 少 为 目标 的 算法 。 首 先 定义 任意 一 堆 URL 对 {U,U)}， 模 型 输出 的 得 分 
ay ANAS AUS), ASA U; 比 U, 更 相关 的 真实 概率 为 


— 1 
R=) 















































































































































也 就 是 说 ， 如 果 U, 比 U 更 相关 《例如 ， 训 练 语 料 中 U, 与 Query 相关 
性 label 为 5，U 与 query 相关 性 label 为 3)， 那 么 Sy= 1; WRU, ALU, 
相关 ， 那 么 Sy = -1 WR Un U, 和 Query 的 相关 度 相 同 ， 那 么 Sy= 0; 
而 U, 比 U; 更 相关 的 预测 概率 为 
=A, >U )=— o 
1+e S 


有 了 这 两 个 概率 ，RankNet (EHRE H Pree Be, BY 


C; = —P. logP, 一 (1 -P,)log(1 = P,) 
= (1 -S;)o(s; —s,)+ log + gre) 
oe > C; 


(i, j)eI 


其 中 , I 表示 所 有 URL pair 的 集合 ， 且 每 个 pair 仅 包 括 一 次 。 
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这 时 候 就 可 以 使 用 梯度 下 降 法 来 求解 参数 w 了 。 在 求解 的 过 程 中 ， 作 
者 进行 了 提速 优化 ， 即 根据 一 系列 推导 ， 得 到 如 下 公式 


6C Os; 
Egee 


(i,j)el 


























假设 集合 I 中 只 包含 有 序 对 ， 即 U; 相关 性 大 于 U， 这 时 候 Sy = 1， 于 
是 就 可 以 简化 成 





ee 


(i, jel (ji)el 
4 决定 着 第 i 个 URL 在 迭代 中 的 移动 方向 和 幅度 ， 也 就 是 说 ， 对 于 某 个 
URL U, 真实 的 排 在 U; 前 面 的 URL 越 少 ， 排 在 U, 后 面 的 URL 越 多 ， 那 么 该 
URL U; 向 前 移动 的 幅度 就 越 大 ， 即 4 负 的 越 多 越 向 前 移动 。 这 表明 每 个 URL 
下 次 调 序 的 方向 和 强度 取决 于 所 有 同一 Query 的 其 他 不 同 label 的 URL. 
RankNet 以 错误 pair 最 少 为 优化 目标 ， 很 显然 这 并 不 是 最 优 的 ， 往 往 
像 NDCG 等 指标 却 是 比较 符合 真实 情况 的 ， 但 是 NDCG 是 非 平 滑 不 连续 
函数 ， 无 法 直接 求 梯度 。LambdaRank 就 是 直接 来 定义 梯度 解决 这 个 问题 ， 
它 更 多 的 是 一 个 经 验算 法 。 它 的 Lambda 梯度 定义 如 下 
OCl(s;—s; o 
^y = b J. = ater) vce 
它 由 两 部 分 组 成 ， 一 是 RankNet 中 的 梯度 ， ee 
NDCG 指标 的 差 值 。 损 失 函 数 的 梯度 代表 了 文档 下 一 次 迭代 优化 的 方向 
ees ee 
的 优质 文档 的 排序 位 置 的 提升 ， 有 效 地 避免 了 下 调 位 置 靠 前 的 优质 文档 
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的 位 置 。 

我 们 看 到 LambdaRank 是 绕 开 了 损失 函数 ， 直 接 定义 梯度 ， 而 Lambda 
MART 其 实 就 是 Lambda 和 MART (GBDT) 的 结合 。MART 是 一 个 树 模 
型 的 框架 ， 树 模型 是 需要 计算 梯度 的 ， 而 将 LambdaRank 中 的 梯度 引进 
来 那 就 组 成 了 LambdaMART 模型 。 细 节 推 导 大 家 可 以 查阅 论文 《From 
RankNet to LambdaRank to LambdaMART: An Overview》。 

既然 有 了 模型 ， 那 么 特征 有 哪些 呢 ? 主要 有 这 么 几 类 : (1) Query 信息 ， 
包括 前 面 介绍 的 Query 分 析 的 东西 、Query 频次 、 点 击 次 数 等 等 ; (2) 文档 
言 轧 ， 包 括 文档 的 基础 得 分 ， 文 档 的 类 别 、 长 度 、 主 题 、 时 间 等 等 (3) 匹配 
信息 ， 主 要 是 Query 和 doc 的 匹配 信息 ， 如 BM25、cover 率 ， 所 有 BS 模 
块 算 的 匹配 得 分 都 可 以 融合 进来 ; (4) 语义 信息 ， 包 括 从 语义 层面 Query 
和 doc 的 相关 性 ; CS) 用 户 行为 ， 包 括 各 种 维度 的 点 击 行为 、 阅 读 时 长 、 
Session 内 上 下 文 等 等 。 

训练 语 料 的 获取 一 般 就 是 两 种 情况 : 一 是 请 标注 人 员 来 专门 标注 ; 
二 是 从 日 志 中 来 抽取 ， 如 在 某 个 Query 下 ， 某 个 文档 U, 被 点 击 过 ， 而 
另 一 个 文档 U) 没有 被 点 击 ， 那 么 就 可 以 认为 U 比 U 更 相关 。 训 练 语 米 
对 最 终 效 果 有 很 大 影响 ， 所 以 抽取 出 更 高 质量 的 语 料 也 是 一 项 非常 重要 
的 工作 。 

随 着 深度 学 习 的 发 展 ， 不 少 人 尝试 用 深度 学 习 解 决 排 序 问 题 ， 现 在 
不 少 引 擎 已 经 开始 加 入 语义 相似 度 模 型 来 计算 相关 性 了 ， 具 体 就 是 计算 
Query 的 语义 表示 和 doc 的 语义 表示 的 匹配 程度 (请 参考 图 5.1)。 这 个 内 
容 我 们 已 经 在 第 3 章 的 深度 学 习 匹 配 模 型 应 用 和 第 $ 章 的 相似 度 计 算 讲 解 
过 了 ， 在 此 就 不 在 重复 。 

前 面 我 们 一 直 在 提 索 引 ， 以 及 索引 归并 ， 那 么 索引 到 底 是 什么 样子 
We? 索引 结构 简单 说 如 图 6.3 所 示 (term->postings list 
是 把 文档 的 正 排 信息 (一 个 文档 有 若干 个 term 组 成 ， 每 个 term 有 位 置 、 
权重 等 属性 ) 建立 索引 【〔 倒 排 信息 ， 从 term 找到 所 对 应 的 的 文档 )。 
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还 记得 前 面 在 搜索 引擎 原理 中 讲 的 索引 就 是 根据 term 很 快 找到 包含 它 
的 文档 ， 所 以 一 个 索引 结构 其 实 可 以 简单 地 看 作 就 是 key-list 结构 。 例 如 
图 6.3 中 ，term A 在 docidl 和 docid2 中 出 现 ， 且 它 在 docidl 中 分 别 出 现在 
pos! 和 pos2 的 位 置 上 ， 且 属性 《例如 权重 ) 分 别 是 attrl 和 attr2。 是 不 是 
很 好 理解 ? 通常 一 个 term 后 面 的 list 中 文档 是 要 按 某 种 方式 排序 的 ， 一 般 
是 按照 文档 号 递增 来 存储 的 ， 怎 么 排序 取决 于 用 什么 算法 来 归并 。 好 ， 现 
在 设计 好 了 索引 结构 ， 对 所 有 文档 建立 了 这 样 一 个 倒 排 索引 库 ， 那 么 剩 下 
的 问题 就 是 ， 有 一 个 Query， 它 分 词 之 后 有 可 能 有 多 个 term， 那 么 怎么 找 

到 都 包含 这 些 term 的 文档 呢 ? 也 就 是 要 怎么 归并 这 些 key-list. WG) VAF 
主要 有 两 种 方法 : TAAT 和 DAAT. 

Term-At-A-Time (TAAT): 在 TAAT 的 查询 处 理 过 程 中 ， 它 每 次 只 打 
开 一 个 term 对 应 的 倒 排 链 (ist)， 然 后 对 其 进行 完整 的 遍历 。 所 以 它 每 处 
理 一 个 文档 只 能 得 到 这 个 词 对 这 篇 文档 的 贡献 ， 只 有 处 理 完 所 有 term 的 
倒 排 链 后 ， 才 能 获 到 文档 的 完整 得 分 。 因 此 ，TAAT 查询 处 理 方法 通常 需 
要 一 个 数组 来 保存 文档 的 临时 分 数 ， 这 个 数组 的 大 小 通常 与 文档 集 规模 相 
当 ， 所 以 当 文 档 集 规模 很 大 时 ， 这 个 额外 数组 存储 开销 会 变 的 非常 大 。 
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Document-At-A-Time (DAAT): Œ DAAT 的 查询 处 理 过 程 中 ， 它 首 
先 会 打开 各 个 term 对 应 的 倒 排 链 ;， 然后 同时 对 这 些 倒 排 链 进行 遍历 。 每 次 
对 当前 文档 号 最 小 的 文档 计算 相关 性 得 分 。 在 处 理 下 一 篇 文档 之 前 ， 它 会 
完整 地 计算 出 当前 处 理 文档 的 最 终 相 关 性 得 分 。 因 此 ， 

过 程 中 ， 它 只 需 使 用 较 少 存储 空间 来 保存 当前 得 分 最 高 的 文档 及 其 得 分 ， 
常 这 些 数据 使 用 优先 队列 来 存储 。 
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当 数 据 量 较 大 的 时 候 ， 通 常 采 用 DAAT 的 方式 进行 查询 归并 ， 用 的 更 
多 的 是 基于 文档 号 递增 排序 的 倒 排 索引 结构 。 假 设 使 用 DAAT 方式 来 归 
并 的 话 ， 还 是 有 问题 ， 一 般 数 据 量 大 的 话 ， 每 个 term 对 应 的 倒 排 链 (list) 
会 很 长 ， 如 果 list 中 每 个 文档 都 遍历 的 话 ， 性 能 还 是 不 高 ， 那 么 有 没有 办 
法 跳 过 不 可 能 出 现在 结果 中 的 文档 呢 ? 有 ， 跳 表 就 是 其 中 一 种 方法 。 

跳 表 可 是 一 种 简单 且 高 效 的 数据 结构 ， 著 名 的 开源 kv 系统 redis 和 
leveldb 都 使 用 了 跳 表 作为 它们 的 核心 数据 结构 。 跳 表 是 一 个 有 序 链 表 ， 它 
在 原 链表 上 设置 了 若干 层 的 有 序 链 表 ， 每 一 层 都 比 上 一 层 的 节点 要 少 。 例 
如 要 查找 图 6.4 中 39 这 个 元 素 ， 就 按照 图 中 红色 路 线 就 可 以 查找 到 ， 比 在 
原 链表 上 查找 路 径 要 短 〈( 跳 过 了 很 多 元 素 )， 这 也 就 是 它 的 优势 。 所 以 使 
用 跳 表 可 以 加 快 链表 归并 。 跳 表 的 具体 细节 网 上 介绍 得 很 多 了 ， 大 家 也 可 
以 参考 原 论文 《Skip Lists: a Probabilistic Alternative to Balanced Trees》。 


跳 表 第 ! 层 [ 叶 [s0] 

























































































































































































对 于 搜索 一 般 有 三 个 常用 的 查询 表达 式 : AND, OR 和 NOT。 这 三 种 
查询 表达 式 也 比较 好 理解 ， 举 个 例子 就 明白 了 : AAND B 表示 A MB 必须 
同时 出 现 ; A OR B 表示 A 和 B 必须 出 现 其 中 之 一 ; A NOT B 表示 出 现 A 
但 不 能 出 现 B。 下 面 我 们 看 看 还 有 什么 更 好 的 算法 能 同时 解决 AND 和 OR 
查询 ， 又 能 提高 性 能 。 

从 前 面 使 用 跳 表 可 以 看 出 ， 跳 表 的 优化 只 对 AND 查询 有 用 ， 对 OR 
查询 不 起 作用 (读者 可 以 思考 下 为 什么 )， 所 以 要 同时 满足 OR 查询 ， 那 
就 要 另 想 方 法 来 优化 了 。 优 化 的 思路 就 是 剪 枝 限界 ， 这 是 很 常用 的 方法 。 
在 DAAT 查询 处 理 方式 中 ， 有 两 个 经 典 的 动态 索引 剪 枝 算法 : 
Weak-AND (WAND， 是 AND 查询 和 OR 查询 的 扩展 )。 它 们 都 是 通过 计 
算 每 个 term 的 贡献 上 限 来 估计 文档 的 相关 性 上 限 ， 从 而 建立 一 个 阔 值 对 倒 
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排 中 的 结果 进行 减 校 ， 最 终 达 到 提速 的 效果 (也 就 是 有 些 文档 不 用 再 计算 
相关 性 了 ， 直 接 跳 过 )。WAND 算法 首先 要 估计 每 个 term 对 相关 性 贡献 的 
上 限 ， 最 简单 的 相关 性 就 是 TF*IDF，IDF 是 固定 的 ， 所 以 就 是 估计 一 个 
term 在 文档 中 的 词 频 TF 上限。 一 般 TF 需要 归 一 化 ， 即 除 以 文档 所 有 词 的 
个 数 ， 因 此 ， 就 是 要 估算 一 个 teem 在 文档 中 所 能 占 到 的 最 大 比例 ， 这 个 线 
下 计算 即 可 。 知 道 了 一 个 term 的 相关 性 上 界 值 ， 就 可 以 知道 一 个 Query 和 
一 个 文档 的 相关 性 上 限 值 ， 就 是 他 们 共同 term 的 相关 性 上 限 值 的 和 ， 然 后 
和 一 个 国 值 “一般 是 Top-N 的 最 小 值 ) 比较 ， 小 于 就 跳 过 。MaxScore 和 
WAND 算法 都 是 精确 的 动态 索引 剪 术 算法， 其 精确 性 主要 通过 以 下 3 A h 
进行 保证 。 

(1) 对 候选 文档 估算 的 得 分 都 是 高 估 的 ， 即 估算 得 到 的 分 数 大 于 或 等 
于 文档 的 真实 得 分 。 

(2) 跳 过 的 文档 的 估算 分 数 都 小 于 当前 Top-N 的 病 值 ， 即 不 存在 文档 
真实 分 数 大 于 Top-N 的 阔 值 而 未 被 加 入 到 Top-N 结果 中 的 情况 。 

(3) 对 于 Top-N 结果 列表 中 的 文档 ， 都 进行 了 完整 的 打分 。 即 Top-N 
结果 中 的 文档 与 完全 遍历 查询 处 理 对 这 些 文 档 处 理 得 到 的 分 数 是 一 样 的 。 
所 以 这 两 个 剪 枝 算法 得 到 的 Top-N 结果 与 完全 遍历 查询 处 理 得 到 的 Top-N 
结果 是 完全 一 致 的 。 因 此 ， 它 们 是 精确 的 动态 索引 剪 枝 方法 。 思 路 很 好 
里 解 ， 就 是 把 不 可 能 得 高 分 的 文档 减 掉 ， 不 再 进入 后 面 的 计算 ， 有 共 体 细节 
大 家 可 以 参考 下 相关 论文 ， 例 如 《Efficient Query Evaluation using a Two- 
Level Retrieval Process》。 还 有 一 种 做 法 是 从 词 的 角度 进行 限定 ， 还 记得 前 
面 讲 到 在 Query 分 析 的 时 候 计算 term 重要 性 ，term 重要 性 的 作用 不 光 是 计 
算 相 关 性 ， 还 有 一 个 作用 就 是 ， 对 于 重要 的 词 必须 出 现 ， 对 于 较 不 重要 的 
词 出 现 更 好 但 并 不 是 必须 的 ， 对 于 一 点 儿 都 不 重要 的 词 压 根 就 可 以 不 去 读 
它 的 索引 链 ， 这 就 衍生 出 来 三 种 词 的 查询 逻辑 : 
面 的 查询 表达 式 ， 用 小 写 )。and 操作 表示 该 词 必须 出 现 ，or 操作 表示 出 现 
更 好 ， 但 是 不 是 必须 的 ，not 操作 表示 该 词 不 能 出 现 ， 用 的 较 少 ， 主 要 还 
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是 and 和 or 操作 用 的 较 多 。 这 种 说 法 是 针对 词 来 说 的 ， 也 就 是 and. or 
和 not 操作 都 是 单个 词 的 属性 (不 要 和 前 面 的 AND 查询 和 OR 查询 混 了 ， 
AND 查询 和 OR 查询 是 描述 词 之 间 的 关系 )。 这 样 ， 读 索引 归并 的 时 候 
就 必须 保证 and 操作 的 词 必须 出 现 ， 否 则 直接 跳 过 计算 。 这 种 做 法 和 前 
面 讲 的 动态 索引 前 村 算法 最 大 的 区 别 是 ， 它 对 term 重要 性 分 析 的 要 求 提 
高 了 。 举 个 例子 来 说 ， 一 个 Query 由 三 个 term A、B 和 C 组 成 ， 计 算出 



































它们 的 权重 分 别 是 0.9、0.89 和 0.88 (权重 区 分 度 不 大 ， 意 味 着 不 一 定 
term A 就 是 最 重要 的 ，term C 就 是 最 不 重要 的 ， 除 非 term 重要 性 分 析 


















































的 非常 准确 ， 但 是 100% 的 准确 率 几乎 不 可 能 做 到 )。 那 么 在 不 存在 同 
时 包含 这 三 个 词 的 文档 的 前 提 下 ， 为 了 增加 召回 (对 于 小 数据 量 的 搜索 





























系统 召回 





























问题 就 更 加 凸显 了 )， 就 有 可 能 丢掉 一 个 term 来 扩大 召回 ， 后 





者 的 做 法 肯定 是 丢掉 term C《〈 因 为 它 的 权重 最 低 )， 然 后 召回 同时 包含 
A 


回 同时 包含 term BA term C 的 文档 (自然 会 召回 同时 包含 








term A 和 


term B 的 文档 ) ， 这 种 情况 下 ， 动 态 索 引 剪 枝 算 法 就 显得 更 好 了 。 所 
以 一 个 好 的 架构 一 定 要 注意 的 一 点 ， 就 是 要 尽 可 能 降低 短 板 效应 对 整 


























个 系统 的 影响 。 


上 面 讲 的 索引 结构 其 实 是 较 简 单 的 一 种 形式 ， 真 正 设计 的 时 候 就 会 很 
复杂 了 ， 会 把 不 同 的 信息 分 到 不 同 的 结构 中 。 较 简单 的 如 会 构建 4 个 不 同 
的 数据 结构 ， 分 别 是 词典 库 《〈 存 放 term 及 其 在 索引 库 的 位 置 偏 移 ， 一 般 常 






































放 磁 盘 还 是 内 存 )、 属 性 库存 放 term 的 其 他 属性 ， 词 频 ， 权 习 























TAF) MEE CEI term 在 文档 中 的 位 置信 息 ， 根 据 数 据 规模 决定 存 


等 等 ， 也 


是 根据 数据 规模 决定 存放 磁盘 还 是 内 存 ) 和 跳 表 库 《存放 跳 表 指针 ， 一 般 

















常 驻 内 存 )。 查 找 的 时 候 首 先 查 词典 库 ， 然 后 根据 位 置 偏 移 查 找 
对 于 磁盘 索引 的 话 ， 也 可 能 会 用 到 其 他 的 一 些 数据 结构 (例如 
B+ 树 或 者 LSM 树 等 ， 这些 数据 结构 的 目的 就 是 提高 读 写 性 能 ， 















































相关 信息 ， 
有 序数 组 、 
因为 磁盘 











VO 操作 性 能 不 高 ， 要 尽 可 能 地 减少 磁盘 IO 操作 )。 有 些 索引 还 需要 压缩 





144 





6.3 搜索 引擎 核心 模块 


存储 等 等 ， 对 一 般 的 网 页 还 有 可 能 要 分 域 〈 如 标题 域 、 正 文 域 等 )， 所 以 
设计 一 个 高 效 的 索引 系统 也 是 需要 很 多 的 技术 的 。 

搜索 引擎 评价 。 讲 完了 搜索 引擎 的 技术 ， 那 么 搜索 引擎 怎么 评价 呢 ? 
每 次 更 新 完 算法 都 要 知道 效果 是 变 好 了 还 是 变 坏 了 吧 ! 常用 的 搜索 引擎 评 
价 指标 有 : MAP、NDCG、MRR 等 ， 当 然 还 可 以 AB-testing 来 对 比 两 个 系 
统 的 指标 。 

MAP (Mean Average Precision) 是 一 种 很 简单 的 评价 方法 ， 计 算 公式 
如 下 。 
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其 中 ，Q 为 Query 总 数 ，R 为 相关 文档 的 总 数 ，pos(n) 为 第 r 个 相关 文 
档 的 排序 位 置 。 

假设 有 两 个 Query，Queryl 有 4 个 相关 网 页 ，Query2 有 5 个 相关 网 
页 。 对 于 Queryl 检索 出 3 个 相关 网 页 ， 其 位 置 分 别 为 1、3、5， 平 均 准 
角 率 为 (1/1+2/3+3/5+0)/4=0.57。 对 于 Query2 检索 出 3 个 相关 网 页 ， 其 位 
置 分 别 为 1、2、5， 平 均 准确 率 为 (1/1+2/2+3/5+0+0)/5=0.52。 则 MAP= 
(0.57+0.52)/2= 0.545. 

DCG (Discounted Cumulative Gain) 这 种 方法 基于 两 点 假设 : (1) 高 
相关 性 的 文档 比 边缘 相关 的 文档 要 有 用 得 多 ; (2) 一 个 相关 文档 的 排序 位 
置 越 靠 后 ， 对 于 用 户 的 价值 就 越 低 。 这 种 方法 为 相关 性 设 定 了 等 级 。 作 为 
衡量 一 篇 文档 的 有 用 性 或 者 增益 ，DCG 方法 的 定义 (有 的 文献 公式 会 有 不 
同 ) 为 
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rel; 


i=2 log2i 
rel, 为 在 排序 位 置 为 i 的 文档 的 相关 性 等 级 〈 一 般 相 关 性 等 级 分 为 
非常 差 (rel; =1). 4 (rel, =2)、 一 般 (rel, =3)、 好 (rel;= 4) 和 非常 
好 (rel; = $))。 为 了 便于 平均 不 同 查询 的 评价 值 ， 可 以 通过 将 每 个 排序 


DCG, =rel, + 
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位 置 上 的 DCG 值 与 该 查询 的 最 优 排序 的 DCG 值 ( 人 工 标注 的 ) 进行 比较 ， 


得 出 一 个 归 一 化 的 值 ， 也 就 是 NDCG 值 ， 这 也 是 目前 最 长 使 


bp, BẸ 


NDCG, 















































的 评价 指 


DCG, 
IDCG, 





IDCG, 即 为 某 一 查询 的 理想 的 DCG 值 。 
举例 来 说 ， 一 组 6 个 文档 的 排序 的 相关 性 等 级 和 理想 等 级 分 别 为 


3, 2, 3, 0, 0, 1 
3, 3, 3,2, 2,2 





可 以 计算 出 它们 对 应 的 DCG 值 分 别 为 




















3, 5, 6.89, 6.89, 6.78, 7.28 
3, 6, 7.89, 8.89, 9.75, 10.52 


7.28 
么 NDCG, = 一 和 -0.69。 
那么 € 10.52 





MRR(Mean Reciprocal Rank) 主要 考察 第 一 个 正确 答案 排名 的 准确 率 ， 














所 以 更 多 地 











MRR 53 
Mga 




















在 导航 类 或 者 问答 类 的 评价 上 ， 它 的 定义 如 下 





1 
Rank, 











Rank, 是 第 q 个 Query 的 第 








个 正确 答案 的 排名 。 





例如 ，Query1 正确 答案 排 在 了 第 三 位 ，Query2 正确 答案 排 在 了 第 二 














位 ， 则 MRR = (1/3 + 1/2)/2=0.417. 











至 此 ， 搜 索引 苟 涉及 的 核心 模块 就 已 经 介绍 完了 ， 想 必 大 家 对 搜索 引 
擎 已 经 不 再 陌生 了 。 论 文 《Ranking Relevance in Yahoo Search》 和 《Newral 








Models for Information Retrieval) ‘425 


整 的 搜索 引擎 还 有 很 多 相关 模块 ， 包 括 : 


。 输入 提示 ; 
。 相关 搜索 ; 
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得 很 不 错 ， 大 家 可 以 看 看 ， 而 一 个 完 








j 








g 


。 BEM / RHK: 


。 网 页 去 重 。 


6.3 搜索 引擎 核心 模块 


在 工程 上 ， 还 有 一 个 很 重要 的 功能 就 是 缓存 (Cache)。Cache 就 是 把 
经 常用 到 的 数据 缓存 起 来 ， 如 果 要 再 使 用 的 话 ， 不 用 发 送 到 下 游 ， 直 接 





读 取 就 可 以 了 。 所 以 Cache 





























的 最 大 作用 就 是 提高 性 能 ， 在 好 多 模块 都 可 








以 使 用 Cache 来 提高 性 能 (如 果 Cache 命中 率 不 高 的 话 ， 花 在 Cache 数 








据 蔡 换 的 时 间 反 而 很 高 ， 也 就 没 必要 使 用 了 ) ， 而 且 Cache 还 有 个 时 间 


周期 的 问题 ， 就 是 




















说 Cache 是 缓存 一 定时 间 段 内 的 数据 ， 过 了 这 个 时 间 
段 就 要 清除 ， 重 新 生成 Cache， 这 样 能 保证 新 数据 进来 。 总 体 来 说 ， 网 


















































页 搜索 引擎 还 是 有 门槛 的 ， 数 据 量 大 ， 计 算 要 求 也 高 ， 但 是 垂直 搜索 引 
擎 就 简单 不 少 了 ， 一 般 垂 直 搜 索引 擎 都 是 自己 的 数据 ， 很 多 模块 都 不 需 








要 了 《例如 ，PageRank 计算 、 疏 虫 、 解 析 等 )， 而 且 数 据 量 小 ， 计 算 要 


求 也 低 。 
搜索 引擎 还 












































据 和 点 击 数据 进行 














很 重要 的 





些 技术 点 ， 就 是 根据 Query log, Session 数 








各 种 挖掘 工作 ， 而 这 几 类 数据 也 是 搜索 引擎 特有 的 优质 
AVE. Query log 很 容易 理解 ， 就 是 所 有 用 户 搜索 的 Query WEA. Session 

































































数据 是 用 户 搜 索 行为 的 时 间 序 列 ， 如 某 用 户 首先 搜 了 QueryA， 然 后 1 分 
钟 后 又 搜 了 QueryB， 再 过 了 半 个 小 时 又 搜 了 QueryC， 那 么 QueryA 和 
QueryB 一 般 来 说 就 会 有 很 大 关联 。 如 果 海 量 用 户 都 有 这 种 行为 的 话 ， 
QueryB 就 可 以 作为 QueryA 的 相关 搜索 词 推荐 出 来 ， 点 击 数据 记录 的 是 
用 户 搜 索 了 某 个 Query， 然 后 点 击 了 哪些 doc， 如 图 6.5 所 示 。 这 是 一 个 
二 部 图 ， 左 边 是 Query， 右 边 是 doc， 有 点 击 的 话 ， 就 会 形成 一 条 边 。 从 






































这 个 图 就 可 以 挖 扩 
系 、Query 和 doc 





虽 好 多 信息 




















l, Query 和 Query 的 关系 、doc 和 doc 的 关 





的 关系 。1 














于 Query 和 doc 都 是 由 term 组 成 ， 所 以 还 

















可 以 进一步 探索 term 和 term 之 间 的 关系 。 关 于 图 的 计算 , 《 
Measure of Structural-Context Similarity》 这 篇 论文 不 得 不 看 。 好 多 模块 


都 是 从 这 几 类 数据 











入 手 来 处 到 











的 。 
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6.4 搜索 广告 


搜索 引擎 靠 什么 便利 呢 ? 广告 。 要 想 了 解 广 告 ， 要 知道 几 个 常用 术语 。 

CPC (Cost Per Click): 每 次 点 击 的 费用 ， 即 按照 广告 被 点 击 的 次 数 
收费 。 

CPM (Cost Per Mille/Cost Per Thousand Click-Through): 每 千 次 印象 
《展示 ) 费用 ， 即 广告 每 展示 1000 次 的 费用 。 

CPA (Cost Per Action): 每 次 行动 的 费用 ， 按 照 用 户 对 广告 所 采取 的 
行动 (完成 一 次 交易 、 产 生 一 个 注册 用 户 等 ) 收费 。 

CPS (Cost Per Sales): 以 每 次 实际 销售 产品 数量 来 收费 。 

CPL (Cost Per Leads): 根据 每 次 广告 产生 的 引导 (通过 特定 链接 ， 注 
册 成 功 后 ) 付费 。 

CPD (Cost Per Day): 按 天 计 费 。 

CTR (Click Through Rate): 广告 的 点 击 率 。 

CVR (Click Value Rate): 广告 的 转化 率 。 

RPM (Revenue Per Mille): 广告 每 千 次 展示 的 收入 。 

广告 大 致 分 为 品牌 广告 和 效果 广告 。 品 牌 广告 一 般 是 用 来 树立 品牌 形 
象 的， 目的 在 于 提升 长 期 的 离线 转化 率 ， 它 不 要 求 你 当时 就 产生 购买 动 
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作 ， 但 是 希望 当 你 需要 该 产品 的 时 候 能 想到 这 个 品牌 。 效 果 广 告 又 大 致 分 
为 展示 广告 和 搜索 广告 。 展 示 广 告 是 指 广告 系统 找到 该 网 民 与 Context 上 
下 文 《网 页 等 ) 满足 相应 投放 设置 的 广告 。 搜 索 广 告 是 指 广告 系统 找到 与 
用 户 输入 的 Query《〈 及 网 民 ) 相关 且 满 足 投放 设置 的 广告 《一 条 广告 包含 
拍卖 词 Bidword、 出 价 、 创 意 等 信息 ， 如 图 6.6 所 示 )。 


Bidword: sigir 2010 
Bid: $1 


Title ‘Tutorial at SIGIR 2010: 
































Information Retrieval Challenges in 
Computational Advertising 
Display URL _ research.yahoo.com/tutorials/sigil 


Creative 


Landing URL: 
http://research. yahoo.com/tutorials/sigir10_compadv/ 








6.6 
广告 本 质 上 就 是 达到 广告 主 《〈 买 广告 的 企业 /人 )、 用 户 和 广告 公司 的 
赢 ， 而 广告 公司 要 做 的 事 就 是 给 广告 主 找到 最 合适 《后 面 解释 什么 是 最 
适 ) 的 用 户 ， 也 可 以 说 是 想 办 法 让 广告 (广告 的 一 系列 特征 ) SAP () 
户 特 征 ) 和 展示 广告 的 网 页 (页 面 特征 ) 最 符合 。 这 样 ， 展 示 广 告 和 搜 
索 广 告 就 有 区 别 了 。 展 示 广 告 就 是 展示 与 页 面 和 用 户 最 符合 的 广告 ， 如 
google adsense、 百 度 网 盟 等 ， 而 搜索 广告 不 同 ， 它 是 展示 与 用 户 输 入 的 
Query (也 会 包括 用 户 特 征 〉 最 符合 的 广告 ， 如 google adwords, AEA 
RE, 
首先 简单 介绍 下 展示 广告 。 目 前 展示 广告 效果 最 好 的 就 是 RTB (Real- 
Time Bidding， 实 时 竞价 ) 广告。 相 比 传统 的 广告 ，RTB 最 大 的 优点 是 卖 
“人 ”而 不 再 是 卖 广告 位 ， 也 就 是 说 同一 个 广告 位 ， 不 同人 兴趣 不 同 ) 
会 看 到 不 同 的 广告 ， 所 以 更 加 精准 。RTB 广告 的 实现 需要 不 同 的 参与 方 合 
作 才能 完成 : (1) Ad Exchange《〈 广 告 交 易 平台 ) ， 是 整个 服务 的 核心 ， 它 
相当 于 交易 所 的 功能 ; (2) DSP (Demand Side Platform， 需 求 方 平 台 )， 
是 供 广告 主 使 用 的 平台 ， 广 告 主 可 以 在 这 个 平台 设置 受众 目标 ， 投 放 区 域 
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和 标价 等 ; (3) SSP (Sell Side Platform， 供 应 方 平 台 )， 是 供 供应 方 〈 站 
长 等 ) 使 用 的 平台 ， 供 应 方 可 以 在 SSP 上 提交 他 们 的 广告 位 ; (4) DMP 
(Date Management Platform， 数 据 管理 平台 ) ， 是 面向 各 个 平台 的 ， 主 要 是 
用 于 数据 管理 、 数 据 分 析 等 。 

举 个 例子 来 说 明 RTB 广告 的 运作 流程 (如 图 6.7 所 示 )。 假 设 腾讯 网 
有 个 广告 位 进入 到 了 菜 个 SSP 平台 ， 而 这 个 SSP 平台 把 这 个 广告 位 的 每 
展示 都 放 到 某 个 AD Exchange 的 交易 平台 中 。 现 在 有 两 个 广告 主 ， 一 个 是 卖 
育 用 品 的 耐 充 公司 ， 另 一 个 是 卖 汽 车 的 宝马 公司 。 耐 到 选择 使 用 了 DSP1 平 
， 设 定 的 规则 是 : 如 果 某 用 户 是 体育 爱好 者 ， 那 么 帮 有 我 出 价 1 块 钱 去 竞拍 
KA ERER. BOARS DS 平台 ， 设 定 的 规则 是 : 如 果 某 用 户 
是 汽车 爱好 者 ， 那 么 帮 有 我 出 2 块 钱 去 竞拍 这 次 的 广告 展示 。 这 时 ， 有 一 个 


AD EXCHANGE 模式 
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RTB (real time biding) 
a 实时 竞价 ， 针 对 每 一 个 访问 需 
示 机 会 求 的 DSP 端 进行 展现 ， 让 每 一 
次 展现 都 实现 利益 最 大 化 。 
















获胜 获得 展 








当 用 户 浏览 一 个 加 入 SSP 的 站 点 时 ， 
其 实 发 生 了 很 多 事情 .… 


A Ht 
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和 广告 位 代码 
fit 站 





/二 不 cookle 访 问 我 的 站 训 


at 
SSP AD EXCHANGE 


in. 识别 cookle 认 为 是 对 汽车 感 兴趣 的 用 户 ”DSP1 
hb | yy A 


DMP (Data- 
Management Platform) 
第 三 方 数 据 管理 平台 ， 
能 够 根据 用 户 的 历史 
浏览 数据 分 析 和 定位 
用 户 属性 
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6.4 搜索 广告 





用 户 刚 要 浏览 腾讯 网 ， 于 是 AD Exchange 告诉 DSP1 和 DSP2， 并 且 把 Ad 
Exchange 记录 的 用 户 唯 一 标识 cookie {224 DSP1 和 DSP2，DSP1 和 DSP2 
根据 这 个 cookie, Æ DMP 里 找 这 个 cookie 的 数据 (找到 就 会 有 更 多 这 个 
cookie 的 信息 ， 找 不 到 就 使 用 自己 存储 的 该 cookie 的 信息 )。 假 设 这 个 时 
候 DSP1 通过 cookie 发 现 这 个 用 户 昨天 搜索 过 “篮球 ”的 关键 词 ，DSP1 
根据 这 个 行为 ， 把 这 个 用 户 归 为 体育 爱好 者 ， 于 是 按照 广告 主 耐克 公司 的 
要 求 ，DSP1 告诉 AD Exchange 平台 : 我 这 边 有 个 耐克 公司 的 客户 ， 愿 意 
为 这 次 的 广告 展示 出 价 1 块 钱 。DSP2 通过 cookie 发 现 这 个 用 户 昨 天 还 浏 
览 过 某 个 汽车 网 ，DSP2 根据 这 个 行为 把 这 个 用 户 归 为 汽车 爱好 者 ， 于 
按照 广告 主 宝马 公司 的 要 求 ，DSP2 告诉 AD Exchange 平台 : 我 这 边 有 个 
宝马 公司 的 客户 ， 愿 意 为 这 次 的 广告 展示 出 价 2 块 钱 。 在 AD Exchange € 
到 DSP1 和 DSP2 这 两 家 的 出 价 数据 之 后 ， 比 较 发 现 DSP2 出 价 高 ， 于 是 
AD Exchange 告 诉 DSP2 说 你 竞拍 成 功 ， 同 时 告诉 DSP1 说 你 的 价格 比较 低 ， 
竞拍 失败 。 在 收 到 AD Exchange 返回 的 数据 之 后 ，DSP2 就 会 把 广告 主 宝 
马公 司 的 广告 创意 给 到 AD Exchange，AD Exchange 就 会 在 腾讯 网 上 的 这 
个 广告 位 上 展示 宝马 公司 的 广告 。 

广告 交易 平台 (Ad Exchange) 模式 相 比 传统 的 广告 网 络 (Ad Network) 
模式 最 大 优点 之 一 就 是 ，Ad Exchange 更 偏重 于 对 用 户 的 精准 投放 ， 而 Ad 
Network 更 偏重 于 对 展示 广告 的 页 面 和 广告 的 匹配 。 

下 面 再 以 搜索 广告 为 例 来 介绍 下 整个 框架 。 

一 个 搜索 广告 系统 还 是 很 复杂 的 ， 我 把 它 主要 分 为 4 大 部 分 : 业务 系 
统 、 检 索 系 统 、 计 费 统 计 系 统 、 反 作 次 系统。 这 几 个 模块 并 不 是 单独 存在 
的 ， 都 是 要 相互 通信 的 。 
业务 系统 主要 是 用 来 给 广告 主管 理 个 人 信息 、 管 理 广 告 、 购 买 广告 等 
操作 ， 还 要 对 用 户 的 消费 产生 报表 等 。 计 费 统计 系统 用 来 对 用 户 的 点 击 进 
行 计 费 ， 并 修改 广告 主 的 余额 等 ， 还 要 记录 一 些 其 他 点 击 信息 等 。 反 作 浆 
系统 就 是 要 打击 各 种 作 次 行为， 保护 广告 主 的 利益 。 检 索 系 统 就 是 要 完成 









































rau 





















































































































































To 





第 6 章 
搜索 引擎 是 什么 玩意 儿 





广告 的 整个 检索 过 程 。 检 索 系 统 的 整个 架构 如 图 6.8 所 示 。 























其 实 ， 搜 索 广告 的 检索 系统 和 搜索 引擎 的 系统 很 相似 。 


H 
2 





cH 





的 Query 分 析 差 不 多 ， 做 些 分 


， 用 户 输 入 Query 之 后 ， 























先是 进行 Query 分 析 ， 和 前 面 搜索 引擎 
diel. Query 变换 、 意 图 分 析 等 等 ; 


然后 ， 把 Query 分 析 结 果 发 送 给 触发 系统 。 触 发 系统 算是 比较 核心 的 


一 个 模块 了 ， 它 的 作用 是 根据 Query 找 出 最 相关 的 一 些 广告 ， 首 先 它 去 拍 
Ski] bidword) 索引 库 中 匹配 出 相关 的 拍卖 词 。 匹 配 模式 有 三 种 形式 : 精 



























































确 匹 配 、 短 语 匹配 、 广 泛 匹 配 。 精 确 匹 配 就 是 当 广告 商 购买 的 关键 词 与 网 
民 Query 一 模 一 样 时 ， 就 可 以 《注意 是 可 以 而 非 必须 ) 展现 该 广告 。 短 语 
匹配 的 一 个 原则 ;保证 Query 的 语义 是 关键 词语 义 的 一 个 子 集 。 广 泛 匹 配 

















在 短语 匹配 的 基础 上 进 




















步 放松 限制 ， 在 分 词 、 倒 序 、 同 义 蔡 换 、 上 下 位 








蔡 换 的 基础 上 增加 了 近 义 蔡 换 、 相 关 词 等 操作 。 这 三 种 模式 都 是 广告 主 买 





拍卖 词 时 可 以 选择 的 。 当 匹配 出 

















相关 性 来 做 初步 得 选 ， 之 后 再 根据 
且 还 要 进行 一 些 过 滤 操 作 。 例 如 ， 广 告 主 选择 自己 的 广告 必须 出 现在 北 




















日 卖 词 之 后 ， 还 要 计算 Query-bidword 的 
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3 卖 词 去 广告 库 中 找到 相应 的 广告 ， 而 























京 ， 那 么 上 海 的 用 户 搜索 就 应 该 过 滤 掉 这 个 广告 。 








排序 模块 就 是 对 召 
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回 的 所 有 】 





告 排序 ， 那 么 广告 的 排序 规则 是 什么 


6.5 问题 与 思考 

















We? 就 是 Q*Bid，Bid 就 是 拍卖 词 的 出 价 ，Q 是 广告 质量 ， 通 常 都 是 使 用 
pCTR 来 表示 一般 会 有 个 参数 来 调整 Q 和 Bid 的 权重 )。pCTR 就 是 预 估 
的 点 击 率 ， 也 就 是 用 户 越 可 能 点 击 且 出 价 高 的 越 要 排 在 前 面 ， 这 也 就 是 前 
面 说 的 最 合适 的 广告 。 那 么 pCTR 怎么 计算 呢 ? 前 面 讲 的 许多 模型 都 可 以 
j 来 计算 ， 例 如 LR、FM、FTRL、 深 度 学 习 等 ， 一 般 点 击 率 预 估 会 用 到 
三 个 维度 的 特征 : 流量 特征 (Query (A. EM. Hao. Beams. S 
征 等 等 )、 用 户 特 征 〈 用 户 画 像 、cookie、session 等 ) 和 广告 特征 (广告 
的 title、 创 意 、 登 陆 页 等 )， 每 一 个 维度 的 特征 的 量 都 是 很 大 的 ， 所 以 
般 来 说 ， 点 击 率 预 估 的 特征 都 是 百 亿 甚 至 千 亿 级 别 的， 但 是 由 于 人 工 提 取 
的 特征 量 大 且 稀疏 ， 所 以 有 人 就 使 用 GBDT 或 深度 学 习 来 自动 提取 高 维 
特征 然后 结合 原始 特征 输入 到 某 些 模型 中 。 例 如 , 《Practical lessons from 


predicting clicks on ads at facebook) (Learning Piece-wise Linear Models from 
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Large Scale Data for Ad Click Prediction》《Ad click prediction: a view from 
the trenches》 这 些 论文 都 很 经 典 ， 值 得 一 读 。 

最 后 ， 就 是 对 排 好 序 的 top-N 广告 展示 (质量 差 、 不 相关 的 广告 就 不 
会 展示 ) 了 。 当 用 户 点 击 之 后 ， 就 会 触发 计 费 统计 系统 ， 也 就 是 说 如 果 是 
正常 的 点 击 〈 反 作弊 系统 )， 那 么 就 要 扣 掉 广告 主 的 钱 ， 扣 钱 准 则 就 是 使 
的 广义 二 阶 价格 (GSP)， 即 price(i)=bid(i+1)*Q(i+1)/Q(i) + 0.01 G+ 表 
示 i 的 下 一 位 广告 ;， 有 的 会 考虑 用 户 体 验 进去 。 至 于 为 什么 要 这 么 计算 ， 
就 涉及 一 些 博弈 学 的 东西 了 。 
这 样 ， 整 个 广告 的 检索 系统 就 介绍 完了 ， 它 和 搜索 引擎 很 相似 ， 但 也 
很 多 不 同 ， 如 排序 算法 ， 再 比如 检索 、 网 页 量 大 ， 而 广告 的 拍卖 词 库 量 
少 ， 所 以 广告 的 检索 对 Query 分 析 的 要 求 就 会 更 高 (也 需要 线 下 对 广告 词 
扩展 ， 如 利用 点 击 过 该 广告 的 历史 Query 来 提高 召回 )。 


































































































































































































6.5 ”问题 与 思 
1. 为 什么 要 建 索引 ? 
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. Query 分 析 有 哪些 主要 模块 ? 

. 相关 性 计算 为 什么 要 分 层 ? 试 述 每 一 层 大 致 的 计算 思路 。 

. Learning To Rank 有 哪些 方法 ， 以 及 LambdaMART 模型 的 优 缺 点 。 
. 索引 归并 如 何 更 快 ? 

如 何 评价 搜索 引擎 效果 ? 

搜索 点 击 日 志 如 何 应 用 ? 
.如 何 超越 “关键 词 ” 层 面 做 语义 搜索 ? 
.搜索 广告 和 其 他 广告 有 什么 优势 ? 
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ar 
r= 





如 何 让 机 党 狂 得 更 准 


从 ， 


在 一 定 程度 








E 荐 系统 则 是 被 动 地 疝 





























获得 信息 的 角度 来 说 ， 搜 索引 擎 是 用 户主 动 获 取信 息 的 方式 ， 
j 户 呈现 信息 的 方式 ， 所 以 说 推荐 系统 











上 提升 了 用 户 获 取信 息 的 效率 。 不 同 的 业务 都 可 以 有 











Bons 











荐 系统 ， 如 Amazon 给 用 户 推荐 书籍 、Youtube 给 用 户 推 荐 视频 、Facebook 





可 以 给 用 户 


在 荐 相关 的 用 户 。 






































什么 是 


法 。 是 所 有 





不 同属 性 大 致 
户 ” 都 不 同 对 待 来 处 理 
区 分 : 不 考虑 物品 的 


的 
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同 对 待 〈 这 样 就 等 于 不 考虑 
来 处 理 《〈 将 用 户 分 类 / 聚 类 来 处 天 
(完全 的 个 性 化 )? 对 了 

具体 内 容 、 对 物品 分 类 / 聚 类 或 完全 


H” ” 相 
| 分 之 后 


“月 
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EET HRS “pth” 
”和 “物品 ”就 
i 会 产生 不 同 的 算 
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=j 
FE 











D? 或 是 每 个 “有 





F“ 物 品 ”也 是 有 类 似 这 样 


区 分 物品 。 








正 因 
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个 清晰 








的 架构 流程 ， 大 致 来 说 ， 推 荐 系统 使 用 最 多 的 有 如 














。 基于 
。 基于 


协同 过 滤 的 推荐 算法 ; 
内 容 的 推荐 算法 。 








H 





E 荐 系统 并 没有 搜索 系统 那样 


#7 
如 何 让 机 器 猜 得 更 准 








还 有 些 基 于 知识 的 推荐 ， 就 是 根据 用 户 的 一 些 约束 条 件 等 来 匹配 出 待 
推荐 的 物品 。 我 们 重点 看 下 这 两 类 方法 。 
































71 基于 协同 过 滤 的 推荐 算法 


协同 过 滤 (Collaborative Filtering, CF) 是 个 典型 的 利用 集体 智慧 的 
方法 。 它 的 思想 非常 容易 理解 : 如 果 某 个 用 户 和 你 的 兴趣 相似 ， 那 么 他 喜 
欢 的 物品 很 可 能 就 是 你 喜欢 的 。 也 可 以 说 协同 过 滤 第 一 步 需要 收集 用 户 兴 
趣 ， 然 后 根据 用 户 兴趣 计算 相似 用 户 或 者 物品 ， 之 后 就 可 以 进行 推荐 了 。 
所 以 就 产生 了 两 类 协同 过 滤 方 法 : 基于 用 户 的 协同 过 滤 (User-based CF) 
和 基于 物品 的 协同 过 滤 (Ttem-based CF). 

用 户 和 物品 的 关系 可 以 表示 成 一 个 矩阵 ( 表 )， 如 表 7.1 所 示 。 每 一 行 
代表 一 个 用 户 对 相应 的 物品 的 打分 (1-5 分， 分 越 高 越 好 )。 现 在 我 们 要 做 
的 就 是 根据 协同 过 滤 计 算出 小 明 对 Item5 的 打分 ， 如 果 打 分 高 ， 那 么 就 可 
以 把 Item5 推荐 给 小 明了 。 

















































































































表 7.1 
Item1 Item2 Item3 Item4 Item5 
小 明 5 3 4 4 ? 
Userl 3 1 2 3 3 
User2 4 3 4 3 5 
User3 3 3 1 5 4 
User4 1 5 5 2 1 
























































基于 用 户 的 协同 过 滤 就 是 首先 根据 用 户 记 录 《〈 表 7.1)， 找 到 和 目标 用 
户 相 似 的 X 个 用 户 ， 然 后 根据 这 N 个 用 户 对 目标 物品 的 打分 计算 出 目标 用 
户 对 目标 物品 的 预测 打分 ， 然 后 决定 要 不 要 推荐 。 首 先 就 是 要 计算 用 户 之 
间 的 相似 度 ， 用 户 间 的 相似 度 使 用 皮尔 森 相 关系 数 效 果 好 一 点 (回顾 前 面 
的 相似 度 计 算 )。 这 样 ， 就 可 以 计算 出 小 明和 其 他 四 个 用 户 的 相似 度 了 〈 读 
者 可 以 带 入 公式 计算 一 下 )， 最 后 发 现 小 明 与 最 相似 。 接 下 
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来 就 要 根据 Userl 和 User2 对 Items 的 打分 来 预测 小 明 对 Items 的 打分 ， 使 
用 如 下 公式 。 


$ sim(u,v)x (r; -7,) 

J „sim(u,v) 
EH, pui 表示 用 户 4 对 物品 i 的 打分 的 预测 值 ，sim(u,v) 表示 用 户 
u 和 用 户 v 的 皮尔 森 相关 系数 ，r,; 表示 用 户 v 对 物品 i 的 打分 ,元 表示 用 
P u 的 平均 打分 。 

这 样 我 们 就 可 以 计算 出 小 明 对 所 有 其 他 物品 的 打分 预测 值 ， 然 后 把 高 
的 top-n 推荐 给 小 明 就 可 以 了 。 这 就 是 基于 用 户 的 协同 过 滤 算 法 。 

基于 物品 的 协同 过 滤 的 思想 是 利用 其 他 用 户 来 计算 物品 相似 度 进而 计 
算 预 测 值 。 还 是 以 上 面 的 小 明 为 例 ， 我 们 首先 计算 出 和 Item5 最 相似 的 物 
品 ， 物 品 间 的 相似 度 使 用 余弦 相似 度 〈 更 多 的 是 改进 的 余弦 相似 度 ， 它 考 
虑 了 平均 值 ) 效果 好 一 点 。 确 定 了 物品 相似 度 之 后 ， 就 可 以 通过 计算 小 明 
对 所 有 Item5 相似 物品 的 加 权 评 分 综合 来 计算 小 明 对 Item5 的 预测 值 了 。 
例如 ， 用 如 下 公式 (符号 意思 同 之 前 一 样 )。 


2 erea (i) x, j 
Diss l ji) 

这 两 个 方法 各 有 什么 优 缺 点 吗 ? User-based CF 需要 实时 计算 用 户 间 
的 相似 度 ， 所 以 计算 量 大 且 频 繁 ， 扩 展 性 也 不 强 ， 而 Item-based CF 是 计 
算 物品 的 相似 度 可 以 在 线 下 计算 减少 了 线 上 的 计算 量 ， 所 以 大 型 电子 商 
务 ( 例 如 ，amazon) 一 般 使 用 这 种 方法 。 当 网 站 用 户 量 和 物品 数量 很 多 时 ， 
计算 量 还 是 很 大 的 ， 有 人 为 了 降低 计算 量 就 提出 了 更 简单 的 Slope One Fil 
Was, ZIL (Slope One Predictors for Online Rating-Based Collaborative 
Filtering). Google 发 表 的 论文 《 
Collaborative Filtering) iE CF 改造 为 支持 大 规模 计算 的 方法 。 

协同 过 滤 方 法 还 有 两 个 比较 大 的 问题 (1) 数据 稀 琉 问题 。 用 户 一 般 





p(wWi)=n + 


































































































































































































p(u,i) = 
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Ez 
I 


很 大 


更 准 























分 法 叫 基 于 模型 的 协同 过 滤 算 法 (有 
based CF 归 入 这 一 类 )。 例 如 ， 使 用 奇异 值 分 解 (SVD) 对 和 矩阵 处 理 ， 





会 评价 少 部 分 物品 ， 所 以 珑 阵 就 会 非常 稀疏 ， 稀 玻 和 矩阵 对 最 终 的 精度 有 
响 。(2) 冷 启动 问题 。 对 
过 的 物品 就 没 办 法 直接 使 用 协同 过 滤 方 法 了 。 
协同 过 滤 方 法 还 有 一 利 


于 还 未 做 过 任何 评分 的 用 户 或 者 从 未 被 评 








的 把 Item- 
这 


种 方法 同时 也 起 到 了 降 维 的 作用 ， 大 家 可 以 参考 这 篇 文章 《Application of 
Dimensionality Reduction in Recommender System 一 A Case Study); 还 有 就 


是 把 预测 茶 个 


成 1-5 FH), A 
品 的 打分 是 属于 
学 习 出 一 组 关联 规则 集合 ， 





分 了 。 


协同 过 滤 方 法 都 是 在 矩阵 上 根 和 
并 不 考虑 物品 的 























就 可 以 使 用 

















具体 内 容 是 人 











j 户 对 某 个 物品 的 评分 看 成 分 类 问题 CL 
的 分 类 器 来 计算 出 该 用 户 对 某 个 物 
那个 类 别 。 另 外 的 一 种 方法 就 是 关联 规则 ， 通 过 用 户 记录 
然后 就 可 以 通过 这 些 规则 预测 月 





are 








前 面 























涉及 下 面 要 讨论 的 基于 内 容 的 推荐 算法 。 








7.2 ”基于 内 容 的 推荐 算法 





该 算法 相 
征 属性 








(当然 ， 也 可 以 简化 为 同一 类 别 、3 
多 数 都 可 以 转化 为 前 面 i 
前 面 的 相似 度 计算 章节 。 

从 大 的 方面 来 说 ， 基 汪 


1. DEIR 


当 于 淡化 了 “月 





的 描述 ) 的 相似 度 来 决定 是 否 


昌 户 ”， 更 多 地 从 月 





I 前面 的 例子 就 是 分 








昌 户 对 物品 的 打 





中 其 他 用 户 对 某 个 用 户 的 操作 ， 而 且 它 
| 么 ， 而 物品 的 内 容 也 是 很 有 信息 量 的 ， 这 就 





昌 户 感 兴趣 的 内 容 ( 物 品 特 








Efe, A 



































类 方法 





我 们 拿 














别 ( 分 类 )、3 


的 那些 相似 度 方法 。 











E 荐 文档 为 例 来 说 ， 每 篇 文档 都 可 以 计算 出 它 的 一 些 属性 : 
EE CRO) 或 者 泛 化 的 说 也 可 以 有 














Æ 
OR i 


要 求 内 容 的 相似 度 了 


题 或 者 标签 )， 从 文本 的 角度 来 说 ， 大 
这 个 就 不 


E 复 介绍 了， 参考 








F 内 容 的 推荐 算法 大 致 有 这 么 几 种 方法 。 
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些 标签 。 JP ES J 









































一 些 相 应 的 属 | 
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生 ， 然 后 根据 


j 户 属性 和 文档 属性 


FE 的 关联 (可 以 是 同一 套 标 


7.3 混合 推荐 算法 








签 体系 ) ， 就 可 以 给 用 户 推荐 相应 属性 的 文档 了 。 

2. 搜索 方法 

个 人 觉得 搜索 方法 才 是 最 能 体现 内 容 的 一 类 方法 ， 它 就 是 通过 搜索 用 

感 兴 趣 的 物品 找 出 与 之 最 相似 的 物品 ， 然 后 推荐 给 用 户 。 它 和 搜索 引擎 

aa 区 别 ? 最 大 的 区 别 就 是 搜索 引擎 提交 的 是 Query， 而 在 这 儿 提 交 的 
是 用 户 兴 趣 ， 根 据 不 同 的 场景 (视频 推荐 、 新 闻 推 荐 、APP 推荐 等 ) 会 
有 不 同 的 搜索 条 件 和 排序 策略 (前 面 搜索 引擎 中 讲 的 排序 模型 都 可 以 引用 
过 a 这 时 ， 我 们 可 以 想 一 想 搜 索引 擎 是 不 是 也 可 以 看 作 一 个 推荐 系统 ， 

是 根据 Query 来 推荐 网 页 〈 所 以 很 多 技术 从 宏观 的 角度 看 都 是 相通 的 )。 
一 个 区 别 是 搜索 引擎 的 结果 一 定 要 精确 〈 因 为 用 户 明 确 要 的 就 是 与 Query 
最 相关 的 内 容 )， 而 推荐 系统 结果 却 比 较 发 散 ， 因 为 是 根据 用 户 兴 趣 触发 ， 
用 户 的 兴趣 本 来 就 是 系统 根据 用 户 行为 猜 的 ， 不 会 很 准 ， 所 以 只 要 不 是 
太 差 都 可 以 接受 。 大 家 有 兴趣 可 以 参考 一 下 Google 发 表 的 一 篇 文章 《Up 
Next: Retrieval Methods for Large Scale Related Video Suggestion), 1% iit 
是 介绍 类 似 的 方法 。 

















































































































































































































7.3 混合 推荐 算法 

以 上 介绍 了 两 种 主要 的 推荐 算法 : 基于 协同 过 滤 和 基于 内 容 的 推荐 算 
法 ， 然 而 真正 的 系统 一 般 都 是 融合 了 多 种 方法 ， 这 样 可 以 抵消 各 自 的 缺 
点 。 现 有 系统 大 多 都 是 融合 多 种 方法 然后 使 用 机 器 学 习 来 推荐 ， 总 体 来 
说 ， 推 荐 系统 和 搜索 系统 大 体 思 路 都 是 一 样 的 ， 就 是 先 从 大 的 集合 中 初步 
筛选 出 可 能 需要 推荐 的 子 集合 ， 然 后 对 这 个 集合 进行 排序 ， 最 后 再 根据 
些 策略 把 最 终结 果 推 荐 给 用 户 。 本 书 主要 讲 文本 相关 的 算法 ， 那 就 以 文档 
推荐 为 例 来 说 明 。 抛 开 数 据 存 储 、 数 据 传输 和 日 志 存储 等 工程 任务 后 ， 推 
荐 系统 的 框架 如 图 7.1 所 示 。 

一 个 用 户 来 了 之 后 ， pecan eal ] 户 画像 ， 然 后 从 大 量 
已 经 处 理 过 的 文档 集合 中 通过 不 同 维度 的 召回 策略 召回 一 些 候 选 文档 集合 
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并 粗略 给 一 个 排序 ， 之 后 用 机 器 学 习 模 型 CpCTR) 对 候选 文档 集合 进行 
排序 ， 最 后 是 一 些 策略 筛选 和 调整 ， 把 最 终 的 推荐 结果 发 给 用 户 。 当 用 户 
看 到 结果 后 ， 会 有 一 些 反 馈 《〈 最 常见 的 就 是 点 击 与 否 、 评 论 与 个 、 阅 读 时 
长 等 等 )， 然 后 这 些 反馈 又 会 进一步 作用 到 用 户 画 像 和 排序 模型 中 ， 使 得 
结果 更 好 。 可 以 看 到 ， 一 个 推荐 系统 有 这 么 几 个 重点 工作 。 





























© 策略 


@ | 反馈 





召回 
协同 过 滤 召 回 





























(1) 用 户 画 像 构建 。 如 何 构建 用 户 画 像 取决 于 平台 有 什么 数据 ， 一 般 
来 说 ， 都 会 包括 基本 属性 : 性 别 、 年 龄 、 职 业 等 等 ， 行 为 属性 : 阅读 、 点 
Ff、 收 藏 、 搜 索 Query 和 更 多 的 社交 行为 等 等 ， 上 下 文 属 性 : 时 间 、 地 理 
位 置 、 之 前 的 一 系列 行为 等 等 。 那 么 有 了 这 些 数据 ， 就 要 给 每 个 用 户 建 立 
一 张 兴 趣 表 ， 从 目前 技术 来 说 ， 就 是 给 用 户 打 上 若干 个 标签 及 相应 的 得 
分 ， 表 示 这 个 用 户 对 这 种 标签 的 兴趣 度 ， 这 些 标签 就 可 以 用 来 召回 候选 文 
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7.3 混合 推荐 算法 





档 〈 因 为 文档 也 打上 了 同一 套 体系 的 标签 ) 和 排序 。 深 度 学 习 可 以 把 用 户 
表示 成 向 量 ， 但 是 向 量 不 可 读 ， 更 多 的 用 来 排序 。 

(2) 排序 模型 。 对 召回 的 候选 文档 集合 进行 排序 ， 整 体 来 说 包括 排序 
和 策略 两 大 部 分 。 排 序 和 前 面 介绍 的 搜索 引擎 的 LTR 很 相似 (一 般 推荐 系 
统 用 Pointwise 方法 就 够 了 )， 包 括 抽 取 特 征 《〈 用 户 特 征 、 文 档 特征 、 行 为 特 
征 ， 换 个 角度 可 以 说 有 传统 特征 、 树 特征 和 向 量 特征 方面 )、 训 练 模 型 〈 语 
料 来 自 点 击 数据 ) 和 评估 等 。 前 面 介 绍 了 好 多 相关 知识 ， 在 这 儿 就 不 重 述 
了 ， 读 者 可 以 看 下 Google 发 表 的 两 篇 论文 : (Deep Neural Networks for YouTube 




















































































































Recommendations) 和 《Wide & Deep Learning for Recommender Systems). 这 
两 篇 论文 讲 的 都 是 把 深度 学 习 应 用 到 推荐 系统 的 方法 ;策略 方面 更 多 的 根 
据 产品 定位 和 目标 来 调整 ， 包 括 时 新 性 、 地 域 性 、 多 样 性 〈 参 见 《Adaptive， 
Personalized Diversity for Visual Discovery》《Novelty and Diversity Metrics for 
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Recommender Systems: Choice, Discovery and Relevance) ) 等 等 。 

(3) “物品 ”属性 计算 。 即 对 要 推荐 的 对 象 计 算 各 种 属性 。 对 于 文档 
来 说 ， 就 是 文本 分 类 、 文 本 聚 类 、 标 签 提取 和 质量 得 分 等 等 。 分 类 和 聚 类 
前 面 也 都 讲 过 了 ， 分 别 用 判别 模型 和 Topic Model 来 处 理 。 唯 一 需要 注意 
的 是 结合 一 些 业 务 特性 来 优化 。 标 签 提 取 会 稍微 不 同 ， 首 先 要 关键 词 提 
取 ， 而 在 关键 词 提 取 过 程 中 要 进行 实体 识别 ， 因 为 不 少 实体 词 会 被 分 词 分 
来 ， 而 它们 要 整体 作为 一 个 关键 词 。 然 后 就 是 对 关键 词 排序 ， 排 序 的 原则 
就 是 最 能 代表 该 文档 语义 的 词 要 排 的 更 高 ， 这 和 搜索 引擎 计算 term 权重 
有 很 多 相似 的 地 方 。 首 先 计算 词 的 文本 特征 ， 包 括 蔡 、idf、 词 性 、 句 法 信 
息 、 语 义 特征 ， 包 括 主题 、 词 关系 、 相 似 度 、 上 下 文 信息 等 ， 然 后 根据 这 
些 特征 根据 某 种 打分 策略 对 关键 词 排序 ， 排 到 前 面 的 就 是 标签 〈 一 般 会 限 
定 为 实体 词 )。 还 有 一 种 方法 就 是 参考 PageRank 思想 ， 以 词 为 节点 ， 计 
算 词 之 间 的 关联 度 作 为 节点 ， 然 后 迭代 得 到 标签 。 目 前 随 着 深度 学 习 理 论 
的 发 展 ， 有 些 人 在 用 Seq2Seq 模型 生成 标签 ， 例 如 论文 《Deep Keyphrase 
Generation》 所 采用 的 方法 。 质 量 得 分 就 是 给 文档 一 个 质量 分 ， 可 以 认为 
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是 一 个 回归 任务 ， 和 搜索 的 文档 质量 计算 也 很 类 似 ， 都 是 从 文本 特征 和 行 
为 特征 等 角度 考虑 。 但 是 针对 推荐 系统 ， 怎 么 定义 高 质量 文档 就 需要 其 酌 
了 ， 如 一 个 金融 人 员 看 待 技术 文章 就 不 怎么 高 质量 了 ， 所 以 可 以 从 分 类 的 
角度 减缓 这 个 任务 ， 如 定义 某 些 类 别 〈 标 题 党 、 广 告 推广 等 ) 就 是 低 质量 
的 ， 可 以 直接 干掉 ， 然 后 再 根据 用 户 反 馈 等 来 对 普通 文档 打分 。 

正 因 为 被 推荐 的 “物品 ”不 同 ( 商 品 、 文 档 、 人 、 视 频 等 );， 导 致 它 
的 属性 计算 会 不 同 ， 而 且 不 同 的 平台 用 户 画 像 构建 的 维度 也 会 不 同 ， 也 就 
是 说 不 同 任务 的 推荐 系统 会 有 较 大 的 不 同 。 例 如 我 手机 上 已 经 装 了 一 款 天 
气 预报 的 APP， 那 么 再 给 我 推荐 另 一 款 天 气 预 报 的 APP， 我 下 载 的 愿望 
就 非常 低 。 但 是 对 于 电影 推荐 这 种 问题 就 小 一 点 ， 我 正在 看 《 谍 影 重重 》， 
你 给 我 推荐 《 谍 影 重重 2》 和 《 谍 影 重重 3》， 我 觉得 还 是 不 错 的 。 因 此 ， 
推荐 系统 更 多 的 是 和 场景 相关 ， 很 难 把 一 个 场景 的 推荐 算法 完全 照搬 到 另 
一 个 场景 上 使 用 ， 但 是 整体 框架 和 底层 的 一 些 技术 是 相通 的 。 
任何 一 个 推荐 系统 ， 都 会 面临 一 些 困 难 ; 多 样 性 和 精准 性 的 平衡 〈 开 
发 和 探索 问题 )、 时 效 性 、 质 量 保证 、 稀 玻 性 和 冷 启 动 等 。 每 个 问题 自 
然 会 有 一 些 应 对 方案 ， 如 冷 启动 问题 可 以 尝试 从 试探 新 兴趣 的 思路 来 解 
诀 ， 通 过 用 户 的 某 些 点 击 反馈 、 阅 读 时 长 等 来 进一步 分 析出 兴趣 来 完善 
推荐 效果 ， 可 以 参考 下 这 几 篇 论文 《Personalized News Recommendation 


















































































































































































































































































































































Based on Click Behavior》《Personalized Recommendation on Dynamic 
Content Using Predictive Bilinear Models) 和 《A Contextual-Bandit 
Approach to Personalized News Article Recommendation). 

推荐 系统 评价 。 至 于 推荐 系统 如 何 评价 ， 只 要 是 排序 问题 ， 那 么 前 面 
机 器 学 习 和 搜索 引擎 里 讲 的 那些 指标 都 可 以 用 来 评价 。 针 对 推荐 系统 ， 还 
也 可 以 有 一 些 指 标 : CTR、 平 均 点 击 次 数 、 多 样 性 (可 以 定义 为 推荐 结 
列表 的 不 相似 性 )、 新 颖 性 (可 以 定义 为 推荐 结果 列表 的 平均 热门 程度 ) 
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o WX (Recommender System Performance Evaluation and Prediction:An 


Information Retrieval Perspective) (Evaluating the Accuracy and Utility of 
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Recommender Systems》 以 及 Guy Shani 的 《Evaluating Recommendation Systems》 
都 可 以 看 看 。 

站 在 用 户 体验 角度 来 说 ， 推 荐 系统 的 目的 是 提高 用 户 获取 信息 的 效 
A 而 站 在 商业 的 角度 来 说 ， 它 的 目的 就 是 能 产生 某 种 行为 《点 击 、 购 买 

， 所 以 推荐 系统 的 本 质 其 实 就 是 预测 能 因此 ， 一 个 好 的 推荐 系统 
psy 但 是 站 在 人 工 智 能 的 角度 来 看 ， 现 在 的 
推荐 系统 都 是 伪 个 性 化 的 ， 例 如 用 户 画 像 构建 都 是 给 用 户 打 各 种 标签 来 表 
示 用 户 的 兴趣 (算是 一 种 折衷 的 兴趣 “表示 ”方案 );， 具 有 同一 个 标签 的 
人 难道 就 有 相同 的 兴趣 吗 ? 人 的 兴趣 大 多 时 候 用 自然 语言 都 难以 表示 ， 尤 
其 是 短期 兴趣 ， 更 不 用 说 几 个 标签 了 《不 准确 性 )， oo 
的 产品 都 是 孤立 的 ， 也 就 是 说 每 一 个 产品 获得 的 都 是 用 户 的 部 分 信 F 
SeT A NRE PERE. PIERA RAA (nes 
这 部 电影 ， 电 影 里 的 那个 系统 才 是 真正 的 个 性 化 系统 ， 它 可 以 监控 一 个 人 
到 秒 级 别 ， 而 个 性 化 发 展 的 越 远 ， 也 意味 着 用 户 越 来 越 没 有 隐私 (个 性 化 
和 隐私 一 定 是 个 矛盾 体 )， 所 以 ， 现 阶段 的 推荐 系统 其 实 个 人 认为 更 像 一 
个 无 需 用 户 选择 的 关键 词 订阅 器 。 
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74 问题 与 思 

.推荐 系统 有 哪些 方法 ? 

. WR SVD 的 物理 意义 。 

如 何 解决 冷 启动 问题 ? 

如 何平 衡 多 样 性 和 准确 性 ? 

如 何 提取 文档 Tag ? 

.推荐 系统 的 特征 和 搜索 引擎 的 特征 有 何不 同 ? 
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8.1 自然 语言 处 理 


前 面 的 各 章 〈 包 括 机 器 学 习 ) 都 是 围绕 文本 处 理 讲解 的 ， 现 在 我 
们 就 系统 地 讨论 文本 处 理 核 心 技术 : 自然 语言 处 理 (Natural Language 
Processing, NLP)。 自 然 语言 处 理 的 目的 就 是 让 计算 机 能 处 理 语言 ， 说 
简单 点 ， 就 是 让 计算 机 听 懂 人 话 。 自 然 语言 处 理 至 今 已 经 有 几 十 年 历史 
了 。 头 20 年 ， 也 就 是 20 世纪 50 年代 至 20 世纪 70 年代 初 ， 大 家 更 关 
心 的 是 人 类 学 习 语 言 的 认 知 研究 上 。 计 算 机 想 处 理 语言 ， 必 须 先 分 析 语 
句 和 获得 语义 ， 这 就 需要 分 析 词 的 词性 、 句 子 的 句法 规则 等 。 最 著名 的 
成 果 就 是 乔 姆 斯 基 用 有 限 状 态 自动 机 来 刻画 语言 的 语法 ， 建 立 了 自然 语 
言 的 有 限 状态 模型 。 这 时 候 人 们 大 多 使 用 的 是 基于 规则 推理 的 符号 主义 
方法 ， 当 然 这 个 时 候 人 工 智能 也 开始 兴起 。 从 20 世纪 80 年 代 开 始 ， 大 
家 逐步 开始 关注 基于 统计 的 联结 主义 方法 ， 而 且 人 们 一 直 在 争论 符号 主 
FUER EE ATES, — EB 
学 习 的 语音 识别 系统 和 翻译 系统 的 突破 以 及 机 器 学 习 算 法 的 研究 ， 让 人 
们 看 到 了 基于 统计 的 联结 主义 方法 的 优势 ， 并 逐步 开始 了 联结 主义 方法 

















































































































































































































8.1 自然 语言 处 理 





的 研究 。 但 是 基于 符号 主义 和 联结 主义 的 两 种 方法 各 有 和 干 秋 ， 谁 也 没 
法 完全 取代 另 一 方 ， 充 分 利用 和 融合 两 者 的 优势 也 许 是 更 好 的 选择 。 
前 些 年 ，Google 搜索 引擎 的 巨大 成 功 把 自然 语言 处 理 又 推 到 了 一 个 高 
湖 ， 包 括 随 着 深度 学 习 的 发 展 ， 自 然 语言 的 研究 再 次 成 为 一 个 热点 。 
从 图 8.1 可 以 一 目 了 然 地 了 解 计 算 机 科技 近 70 年 的 主要 发 展 。 很 多 技 
术 的 发 展 都 是 互相 促进 的 ， 比 如 机 器 学 习 的 发 展 就 会 影响 到 自然 语言 
处 理 的 发 展 。 


































































KBE TTA 


自然 语言 处 理 
Google IBM Watson 
J e 







iPhone 
(J 
AlphaGo 


深度 学 习 








机 器 学 习 





L 
1940 1950 1960 1970 1980 1990 2000 2010 2020 
8.1 

















理想 的 NLP 处 理 流 程 如 图 8.2 所 示 。 这 是 一 个 层次 结构 ， 最 底层 
是 词法 分 析 ， 包 括 分 词 、 词 性 标注 、 专 名 识别 等 ， 是 对 词 的 分 析 ; 然 
后 是 句法 分 析 ， 得 到 一 个 句法 树 ， 相 当 于 获得 了 更 多 的 词 或 短语 之 间 
的 关系 ; 之 后 是 语义 分 析 ， 会 得 到 整个 句子 的 逻辑 关系 ;最 后 就 是 应 
用 ， 比 如 知识 抽取 、 问 答 系 统 等 各 种 任务 。 然 而 实际 中 并 不 一 定 是 这 
样 ， 比 如 句法 分 析 在 很 多 项 目 中 都 没有 利用 起 来 ， 语 义 分 析 层 面 也 是 
根据 任务 会 有 不 同 的 形式 ， 例 如 有 的 时 候 抽取 中 心 词 就 可 以 满足 应 
用 了 。 

换个 形式 我 把 NLP 大 致 技术 细 分 为 如 图 8.3 所 示 不同 的 人 会 有 不 同 
的 分 类 体系 )。 最 底层 是 资源 ， 自 然 语言 处 理 模 块 少不了 资源 ， 而 且 资 源 
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应 用 


图 8.2 

















是 非常 重要 的 一 部 分 ， 当 然 了 ， 知 识 库 的 建立 也 会 用 到 很 多 上 层 的 NLP 技 
术 。 然 后 是 词汇 级 别 的 技术 ， 词 法 层面 分 析 是 对 词 的 处 理 ， 分 词 、 词 性 标注 
识别 专 有 名 词 等 。 词 与 词 之 间 会 有 一 定 的 关系 ， 这 就 是 Ontology O i 
来 说 ， 它 也 属于 知识 库 )， 它 包括 很 多 关系 : LP GER 公司 )、 同 
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位 《苹果 - 谷歌 ) 等 等 ， 这 些 关 系 可 以 用 于 推理 、 泛 化 等 。 之 后 是 句子 
级 别 的 技术 ， 即 语义 层面 分 析 。 得 到 一 个 句子 的 语义 信息 其 实 是 很 难 的 ， 
目前 的 技术 也 比较 初级 ， 我 主要 归纳 为 中 心 词 提取 (有 些 任务 中 心 词 提 
取出 来 了 ， 意 思 大 致 也 就 明白 了 )、topic 分 析 、 意 图 识别 和 语义 分 析 。 
变换 层面 分 析 更 多 的 用 在 搜索 上 ， 主 要 是 纠正 句子 。 结 构 层 面 分 析 用 的 
最 多 的 是 句法 分 析 和 组 块 分 析 ， 当 然 还 有 一 些 技术 ， 如 语义 角色 标注 等 ， 
用 的 较 少 。 最 后 就 是 各 种 应 用 任务 了 ， 其 中 搜索 引擎 (前 面 介绍 过 )、 
自动 问答 、 人 机 对 话 是 非常 复杂 的 ， 几 乎 用 到 了 所 有 NLP 技术 。 文 档 
分 类 和 情感 分 析 是 不 同 程度 的 分 类 问题 ， 机 器 翻译 和 摘要 提取 现在 也 在 
逐步 尝试 深度 学 习 的 方法 〈 前 面 深度 学 习 章节 有 讲解 过 )。 下 面 介绍 几 
个 核心 技术 。 

专 名 识别 就 是 识别 句子 中 的 专 有 名 词 ， 比 如 人 人名、 地名、 机 构 
名 、 时 间 词 、 数 字 词 、 影 视 名 等 等 。 其 实 专 名 识别 是 一 个 序列 标注 问 
题 ， 说 简单 点 ， 就 是 找 词 的 边界 。 如 下 示例 中 ，P_B 表示 人 名 的 开始 
词 ，P_M 表示 人 名 的 中 间 词 ，P_E 表示 人 名 的 结尾 词 ， 其 他 标记 也 是 
一 样 。 这 样 的 话 ， 就 可 以 使 用 机 器 学 习 训练 每 个 词 的 标记 ， 还 记得 前 
面 讲 的 CRE 吗 ? 它 就 是 做 序列 标记 很 好 的 模型 ， 我 们 在 深度 学 习 章 
节 (图 3.19)〉 中 介绍 过 一 种 做 序列 标注 的 方法 ， 现 在 还 有 些 结合 深度 
学 习 和 CRF 的 模型 ， 如 论文 《Neural Architectures for Named Entity 
Recognition》， 如 图 8.4 所 示 ， 就 是 结合 BiLSTM-CRF 的 专 名 识别 模 
型 。 对 于 人 名 、 地 名 、 机 构 名 这 些 结构 边界 比较 清楚 的 情况 ， 使 用 请 
列 标注 模型 效果 是 非常 好 的 。 例 如 和 人 名、 地 名 的 Fl 值 都 很 高 了 ， 其 他 
的 类 别 比 如 音乐 名 、 小 说 名 等 是 十 分 不 好 识别 的 ， 因 为 它们 没有 什么 
规律 可 言 ， 也 就 是 说 边界 比较 泛 ， 所 以 就 会 比较 困难 。 所 以 要 想 提 高 
准确 率 ， 必 须 依 靠 模型 、 词 表 和 一 些 业 务 规 则 来 识别 了 ， 当 然 了 有 些 
专 有 名 词 靠 正则 就 可 以 搞定 了 ， 比 如 时 间 词 等 。 说 白 了 ， 专 名 识别 和 
分 词 都 是 找 词 的 边界 ， 都 是 序列 标注 任务 ， 当 然 了 ， 词 性 标注 也 是 序 
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列 标注 任务 。 


1687 7ASALUS TH], KEEA + FRNA BET ABLE CAPR AIRY RE 


1687 7 月 5 日 ， 艾 萨 克 。 牛顿 出 版 了 他 的 著作 《自然 哲学 的 数学 原理 》 
TB TMTENPBPMPE NNNN N NBBBMBMBMBEN) 
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句法 分 析 是 NLP 的 关键 技术 之 一 ， 它 的 任务 就 是 根据 文法 规则 得 到 一 
个 句子 的 句法 结构 。 句 法 结构 一 般 是 表示 成 树 状 形式 ， 如 图 8.5 所 示 。 确 


定 句子 中 各 成 分 之 间 的 关系 是 一 项 非常 困难 的 事情 ， 


高 ， 所 以 为 了 降低 复杂 度 ， 大 多 是 进行 浅 层 句法 分 析 ， 
单 的 独立 成 分 。 
利用 依存 语法 是 进行 句法 分 析 的 方法 之 一 ， 也 是 


















































导致 其 准确 率 并 不 






























































识别 句子 中 相对 简 


目前 研究 最 多 的 一 种 








方法 ， 依 存 语 法 是 用 词 与 词 之 间 的 依存 关系 描述 语言 的 句法 结构 ， 也 就 是 
词 与 词 之 间 是 支配 和 被 支配 的 关系 ， 而 且 这 种 关系 是 有 方向 的 ， 它 主张 名 
子 中 核心 动词 是 支配 其 他 成 分 的 中 心 成 分 ， 而 它 本 身 却 不 受 其 他 任何 成 分 
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的 支配 ， 所 有 受 支 配 成 分 都 以 某 种 依存 关系 从 属于 支配 者 。 如 图 8.6 所 示 ， 
“ 吃 ” 就 是 核心 动词 ,“ 小 明 ” 和 “ 吃 ”是 主 调 关 系 ,“ 吃 ”和 “苹果 ”是 
动 宾 关 系 ,“ 红 ”和 “苹果 ”是 定 中 关系 。 所 以 依存 句法 分 析 的 目标 就 是 
得 到 句子 中 各 个 词 之 间 的 依存 关系 。 





















































文法 规则 : 
8 ->NP VP 
VP ->VVP NP VP 
NP ->NAME 
NP ë  >ARTN NAME V NP 
NAME ->John 
V —>ate 
ART ->the John ate ART N 
N ->apple | 
the apple 
218.5 
HED (核心 ) VOB ( 动 宾 ) 
BV ( 主 谓 ) ATT ( 定 中 ) 
ROOT 小 明 eH 
218.6 




















依存 句法 分 析 有 两 大 类 方法 。 一 种 是 基于 图 的 方法 (Graph-based)， 
它 把 问题 看 成 有 向 图 中 最 大 生成 树 的 求解 问题 ， 它 的 优点 是 训练 时 使 用 的 
全 局 方法 ， 可 以 搜索 所 有 子 树 ， 缺 点 是 不 能 利用 太 多 历史 信息 《特征 是 局 
部 性 的 )。 一 种 是 基于 决策 的 方法 (Transition-based)， 它 将 依存 树 的 构建 
分 解 为 一 序列 动作 ， 由 分 类 器 根据 当前 状态 来 决定 下 一 个 分 析 动 作 ， 它 的 
优点 是 速度 快 ， 可 以 较 多 地 利用 历史 信息 《特征 是 全 局 性 的 )， 缺 点 在 于 
使 用 的 是 局 部 贪心 算法 。 基 于 决策 的 方法 主要 有 arc-standard 算法 和 arc- 
eager 算法 。 

我 们 主要 看 看 arc-standard 算法 是 怎么 回 事 。 它 定义 了 一 个 configuration 
c=<s, b, A>, s 是 一 个 栈 (stack), b 是 待 分 析 词 的 序列 Cbuffer), A 是 
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当前 已 有 的 依存 关系 。 初 始 的 时 候 s 只 有 一 个 ROOT，b 包含 句子 中 的 
所 有 词 ，A 是 空 的 ， 经 过 一 系列 的 操作 ， 直 到 s RA ROOT, 为 空 
时 停止 ， 这 时 候 得 到 的 A 就 是 依存 关系 。 那 么 每 一 步 的 操作 包括 3 个 
动作 。 

LEFTARCG) : 给 s1->s2 增加 一 个 依存 关系 i，s2 从 stack 中 移 除 。 

RIGHT-ARC(i) : 给 s2->s1 增加 一 个 依存 关系 i，sl 从 stack 中 移 除 。 

SHIFT: 将 bl M buffer 移 到 stack 中 ; 注意 ，si 是 stack 中 第 i 个 元 素 ， 
bi 是 buffer 中 第 i 个 元 素 ， 注 意 顺序 。 

如 图 8.7 所 示 是 一 个 示例 过 程 ， 从 头 到 尾 扫描 一 遍 buffer 序列 ， 每 一 
步 都 会 对 应 上 面 三 个 动作 之 一 ， 最 终 就 会 得 到 依存 关系 。 如 果 有 NMR 
关系 的 话 ， 那 么 总 共 的 动作 就 是 2N+1 个 (每 个 关系 有 LEFT 和 RIGHT 
两 种 ， 就 是 2N， 还 有 一 个 SHIFT) ， 这 其 实 就 抽象 成 了 分 类 问题 (SVM, 
最 大 烂 ， 深 度 学 习 等 )， 每 一 步 根据 当前 的 状态 提取 特征 ， 然 后 分 类 器 
决定 当前 的 动作 。 那 么 可 以 提取 哪些 特征 呢 ? 主要 是 这 3 个 部 分 : 词 、 
词性 、 依 存 关 系 。 如 示例 中 第 五 步 〈 左 箭头 的 地 方 ) 的 特征 就 可 以 是 
(lci(s1) 表示 sl 最 左边 孩子 的 第 i 个 元 素 ，rci(s1) 表示 sl 最 右边 孩子 的 
第 i 个 元 素 ): 




















































































































pos(s1)= 形容 词 word(s1)= 红 dep (Icl (s2))=SBV 

pos(s2)= 动词 word(s2)= NZ, dep (rc (s2))=NULL 
pos(b1)= 名 词 word(b1)= 苹果 dep(Icl (s1))=NULL 
pos(b2)=NULL word(b2)=NULL dep(re1(s1))=NULL 


当然 要 想 提高 分 类 的 准确 率 ， 就 要 提取 更 多 更 丰富 的 特征 ， 而 且 这 些 
特征 的 组 织 也 是 比较 繁琐 ， 不 方便 扩展 的 。 

近年 来 提出 了 一 种 基于 深度 学 习 的 依存 句法 分 析 方 法 ， 例 如 论文 《A 
Fast and Accurate Dependency Parser using Neural Networks 
是 可 以 方便 地 在 input 层 扩 展 特 征 ， 然 后 由 神经 网 络 学 习 这 些 特 征 的 内 在 
言 忠 ， 准 确 率 也 会 提高 。 
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stack 
S3, S25 sl 
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我 们 看 看 这 个 模型 是 怎么 工作 的 ， 如 图 
别 是 词 、 词 性 、 依 存 关 系 被 Embedding Z Ja MFI 
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SBV (小 明 ， 吃 ) 


ATT (20, 3458) 


VOB (HG, 328) 


ROOT (root, 82) 


8.8 所 示 。 在 输入 层 x", x, x 分 





是 


量 。 拿 词 来 举例 ， 例 如 ， 





选择 sS1，s2，bl，b2 四 个 元 素 作 为 词 的 特征 ，x" 就 是 这 四 个 词 向 量 拼接 而 
成 ， 同 样 ， 词 性 和 依存 关系 也 都 可 以 是 所 选取 的 元 素 的 向 量 拼接 。 作 者 在 
论文 中 词 和 词性 都 选取 了 18 个 元 素 ， 依 存 关 系 选 取 了 

层 表示 成 向 量 以 后 ， 剩 下 从 隐藏 层 到 输出 层 就 是 使 用 神经 网 络 ， 这 个 就 容 
易 了 ， 只 是 中 间 需 要 一 些 trick 来 使 得 模型 效果 更 好 ， 如 隐藏 层 的 激励 函数 




















WA 





第 8 章 


理解 语言 有 多 难 





用 的 就 是 立方 函数 。 


Softmax layer: 
p=softmax (W,h) 
Hidden layer: 

h= (W +) x +W! x'+b,)° 











ht 


Er EE 
1 


Input layer: [x”, x, x] 
和 
Words POS tags arc labels 
Buffer <--- Features Extracted 
| 
| 


= = = So bi i=l, 2, 3 
Configuration | ROOT has_VBZ good_JJ_ | la(s), les(s)=1, 2 








nsubj rei(s?), rco(s)i=l, 2 
He-PRP re, (rci (s;))i=l, 2 
Ic, (Ic, (s))i=1, 2 
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句法 分 析 在 标准 测试 集 上 已 经 有 很 不 错 的 准确 率 了 ， 尤 其 是 英文 上 ， 
但 是 中 文 准确 率 就 要 低 一 些 ， 那 是 因为 中 文句 法 结构 更 复杂 ， 这 是 
五 四 新 文化 运动 的 时 候 ， 一 些 文 人 把 英文 的 有 些 结构 强行 加 到 中 文 上 ， 
“的 地 得 ”也 是 那个 时 候 冒 出 来 的 ， 因 为 “的 地 得 ” 跟 语法 结构 有 关 ， 
这 是 题 外 话 了 。 在 我 们 的 实际 项 目 中 ， 使 用 句法 分 析 的 时 候 效 果 并 不 是 
很 理想 ， 因 为 真实 场景 和 标准 集 数 据 分 布 有 差异 ， 而 且 要 在 真实 场景 
下 标注 句法 分 析 的 训练 语 料 是 有 门槛 的 ， 不 像 普 通 分 类 任务 那样 〈 任 何 
人 都 可 以 标注 分 类 语 料 )， 而 是 需要 一 定 的 语言 知识 才 可 以 ， 这 也 导致 
了 句法 分 析 的 应 用 不 是 太 广 。 但 是 语言 理解 是 很 难 的 ， 能 用 到 的 信息 都 
要 尽 可 能 利用 起 来 ， 名 法 分 析 如 何 使 用 起 来 也 是 一 个 逐步 被 认真 思考 的 
问题 。 

语义 分 析 (semantic parsing) 可 以 认为 是 一 个 终极 目标 ， 自 然 也 是 一 
个 很 难 的 问题 ， 目 前 能 搞定 的 也 很 有 限 ， 它 涉及 一 个 自然 语言 量化 的 问 
题 ， 这 个 我 后 面 会 说 。 它 和 句法 分 析 (syntactic parsing) 是 不 同 的 ， 句 
法 分 析 是 得 到 一 个 句子 的 句法 树 ， 而 目前 语义 分 析 是 将 句子 解析 成 一 
个 逻辑 表达 式 ， 如 人 句子 “小 于 ”的 最 大 质数 是 多 少 ” 就 要 表示 成 类 似 
“max(primes N ~% , 10))” 这 样 的 逻辑 表达 式 ， 或 者 句子 “小 明 的 身高 
是 多 少 ” 要 表示 成 “Person.Height( 小 明 )” 语义 分 析 的 初 囊 是 如 果 把 句 
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子 表示 成 了 逻辑 表达 式 〈( 太 多 句子 其 实 是 没 法 表示 成 逻辑 表达 式 的 )， 那 
么 计算 机 就 可 以 解析 了 。 但 是 尽管 这 样 ， 表 示 成 的 逻辑 表达 式 对 计算 机 
也 挺 困难 的 ， 因 为 不 同 的 任务 有 不 同 的 表达 式 ， 所 以 也 只 能 在 特定 的 场 
景 中 使 用 。 语 义 解析 的 方法 一 般 也 是 基于 模板 的 方法 和 基于 机 器 学 习 模 
型 的 方法 。 基 于 模板 的 方法 其 实 很 好 理解 ， 就 是 挖掘 一 些 句 式 模板 ， 例 
W, {[PERSON] HY i } Mere aS {AWM EBD } 的 一 个 模 
板 ， 然 后 就 可 以 得 到 表达 式 “Person.Height〈 小 明 )”， 如 图 8.9 所 示 。 基 
于 模型 的 方法 大 家 可 以 参考 论文 《semantic parsing via paraphrasing》《Semantic 










































































Parsing on Freebase from Question-Answer Pairs) (Large-scale Semantic Parsindg 
via Schema Matching and Lexicon Extension) «(Semantic Parsing via Staged 
Query Graph Generation: Question Answering with Knowledge Base)) (SLING: A 


framework for frame semantic parsing》。 这 些 论文 的 思路 都 比较 好 。 





语义 分 析 


统计 模型 
AN HAAS ey? = P = Person. Height) 4) 
































知识 库 的 建设 是 很 重要 的 ， 也 是 很 难 的 ， 因 为 人 类 的 知识 一 直 在 增 
加 ， 而 且 很 难 抽象 成 计算 机 能 理解 和 表示 的 形式 。 知 识 一 般 分 两 种 ， 一 种 
是 无 结构 化 知识 ， 如 “天 空 为 什么 是 蓝 的 ?一 一 因为 太阳 光 通 过 空气 时 ， 
太阳 光 中 波长 较 长 的 红 光 、 杠 光 、 黄 光 都 等 穿 透 大 气 层 ， 直 接 射 到 地 面 ， 
而 波长 较 短 的 蓝 、 紫 、 靛 等 色光 ， 很 容易 被 是 浮 在 空气 中 的 微粒 阻挡 ， 从 
而 使 光线 散 向 四 方 ， 使 天 空 呈现 出 讨 蓝 色 ”。 无 结构 化 知识 很 难 表示 也 很 
难处 理 。 另 一 种 是 结构 化 知识 ， 是 以 实体 为 核心 ， 表 示 成 SPO (Subject- 
Predicate-Object) 三 元 组 形式 的 ， 如 27 ， 结 构 化 的 知识 
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被 冠 了 一 个 名 字 : 知识 图 谱 。 结 构 化 知识 是 较 好 表示 的 ， 也 是 目前 能 处 理 
的 ， 但 是 来 源 也 很 有 限 ， 如 百科 《〈 半 结构 化 )、 垂 直 网 站 〈 结 构 化 ) 等 。 
所 以 需要 从 海量 的 网 页 〈 无 结构 化 ) 中 抽取 出 更 多 结构 化 知识 ， 就 需要 很 
多 的 技术 : 基础 的 NLP、 指 代 消 解 〈 也 叫 共 指 消解 )、 实 体 消解 〈 也 叫 实 
体 消 歧 )、 实 体 / 属 性 抽取 、 关 系 抽取 等 等 。 当 然 ， 还 有 细节 任务 ， 如 实体 
归 一 、 属 性 归 一 等 ， 大 致 用 到 的 思想 主要 是 两 种 : 基于 模板 的 挖掘 方法 和 
基于 统计 模型 的 方法 ， 如 图 8.10 所 示 。 


E | 


半 结 构 化 数据 o | | 
< 
无 结构 化 数据 

18.10 


基于 模板 的 方法 很 好 理解 ， 也 容易 处 理 ， 就 是 事先 准备 一 些 高 质量 关 
系 对 〔 例 如 ,苹果 is a KA) 组 成 一 个 种 子 关系 集 合 ， 根 据 这 些 关 系 再 控 
掘 出 一 些 高 质量 关系 模板 〈 例 如 ， 苹 果 是 一 种 水 果 )， 然 后 用 这 些 模板 在 
海量 语 料 中 匹配 找 出 更 多 的 关系 对 ， 有 了 关系 对 就 可 以 再 扩充 关系 模板 ， 
一 直 持 续 迭 代 ， 就 可 以 得 到 最 后 的 关系 知识 库 ， 如 图 8.11 所 示 。 
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基于 模型 的 方法 现在 不 少 人 尝试 使 用 深度 学 习 在 抽取 知识 ， 如 论 
文 《End-to-End Relation Extraction using LSTMs on Sequences and Tree 
Structures》 就 是 直接 用 一 个 端 到 端 模型 抽取 出 三 元 组 ， 如 图 8.12 所 示 ， 还 
有 《Language to Logical Form with Neural Attention) (Connecting Language 





















































and Knowledge Bases with Embedding Models for Relation Extraction) 等 。 
一 些 论文 尝试 将 模板 信息 应 用 到 模型 中 来 完成 抽取 任务 ， 如 《Representing 
Text for Joint Embedding of Text and Knowledge Bases) (Multilingual 


























Relation Extraction using Compositional Universal Schema). 


neural net/softmax 
dropout 
LSTM unit 
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Bi-TreeLSRM 


eo dependency embeddings 


nsubjpass prep pobj 


hidden 





word/POS 
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xO Ne 
In 1909 , Sidney Yates was born in Chicago 
418.12 


























站 在 另 一 种 角度 来 说 ， 如 果 S 和 了 能 事先 挖掘 出 来 ， 那 么 其 实 就 是 根 
de S 和 了 来 找 出 相应 的 O， 这 样 就 可 以 抽象 成 一 个 分 类 或 者 排序 问题 了 ， 也 
就 是 说 根据 S 和 了 找 出 一 些 候 选 文档 片段 ， 然 后 在 这 些 片段 中 找 出 最 可 能 
的 O。 

至 于 指 代 消 解 以 及 实体 消解 
成 一 种 分 类 任务 ， 也 就 是 说 基于 上 下 文 或 者 知识 的 分 类 任务 ， 那 么 前 面 
绍 的 机 器 学 习 知识 都 可 以 应 用 。 
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8.2 对话 系 统 


8.2.1 概述 
对 话 系统 近 一 两 年 来 变 得 异常 火爆 ， 在 这 儿 我 也 把 对 话 系 统 简单 总 结 

















下 。 大 家 都 觉得 对 话 是 最 自然 的 交互 方式 ， 是 未 来 的 趋势 等 等 ， 然 而 受 限 
于 技术 不 成 熟 ， 更 多 的 还 是 自然 语言 理解 的 不 成 熟 ， 到 目前 来 说 还 没有 一 个 
真正 意义 上 能 解决 用 户 某 一 方面 问题 而 且 体 验 很 好 的 对 话 产 品 出 现 。 亚 马 壕 
的 echo 算是 比较 成 功 的 一 个 产品 了 ， 但 更 多 的 也 是 一 些 指令 型 的 控制 。 不 
管 怎样 ， 要 想 做 好 对 话 系 统 ， 如 下 这 几 个 技术 点 少不了 ， 如 图 8.13 所 示 。 
(1) 语义 理解 。 包 括 实体 识别 、 句 法 分 析 和 意图 识别 等 。 
(2) 对 话 管理 。 包 括 对 话 状 态 追 踪 、 上 下 文 建 模 、 指 代 消 解 和 省 略 补 


































































































(3) 知识 表示 。 包 括 语义 分 析 和 知识 建设 。 
《4) 用 户 管理 。 包 括 用 户 画像 、 长 时 记忆 和 短 时 记忆 等 。 




















专 名 识别 对 话 状态 追踪 
句法 分 析 


用 户 画像 
长 时 记忆 


上 下 文 建 模 
指 代 消解 











图 8.13 








从 完成 的 任务 来 说 ， 对 话 系 统 主要 有 这 3 个 方面 :问答 型 、 任 务 型 和 
闲聊 型 。 


问答 型 更 多 的 就 是 之 前 提 到 的 问答 系统 ， 可 以 视 为 单 轮 的 对 话 系 统 。 
问答 系统 研究 有 很 长 时 间 了 (该 有 的 “ 坑 ” 还 是 “ 坑 ”， 因 为 如 上 所 说 语 
言 的 理解 和 表示 有 待 突破 )， 它 解决 的 更 多 的 是 知识 型 的 问题 (知识 怎么 
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KE WE? )。 目 前 研究 最 多 的 是 答案 是 一 个 实体 的 客观 性 知识 的 任务 〈 这 
算是 一 种 定义 )， 比 如 “中 国 的 首都 是 哪儿 ?一 一 北京 "， 对 于 答案 是 一 
句 话 或 者 一 段 话 ， 或 者 是 主观 性 的 ， 甚 至 是 个 性 化 的 问题 ， 那 就 更 是 困难 
了 。 所 以 问答 系统 比较 困难 也 比较 复杂 ， 涉 及 的 技术 点 也 很 多 ， 因 此 ， 要 
想 做 一 个 还 可 用 的 问答 系统 ， 就 要 针对 茶 个 具体 场景 去 解决 相应 的 问答 需 
求 ， 要 做 通用 的 自动 问答 系统 ， 还 是 很 困难 的 。 问 答 系统 的 另 一 个 应 用 就 
是 客服 系统 ， 即 使 用 机 器 来 辅助 人 回答 高 频 经 常 被 问 到 的 问题 ， 提 高 客服 
人 员 的 效率 。 问 答 系统 目前 主要 有 如 下 几 类 方法 。 

(1) 基于 语义 分 析 的 方法 

该 方法 的 思路 就 是 来 一 个 Query 之 后 首先 语义 分 析出 逻辑 表达 式 ， 然 
后 根据 这 个 逻辑 表达 式 去 知识 库 中 推理 查询 出 答案 。 知 识 图 谱 的 存储 方案 
有 两 种 : 一 种 是 基于 图 的 RDF 方案 ， 一 种 是 基于 索引 的 方案 。 这 个 方法 
的 重点 就 在 于 语义 分 析 ， 如 图 8.14 所 示 。 
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语义 分 析 推理 查询 (> 
小 明 的 身高 ? ) 一 一 > | Person.Height (小 明 ) | => 





图 8.14 











(2) 基于 信息 抽取 的 方法 

这 种 方法 的 思想 就 是 来 一 个 问题 之 后 ， 首 先是 问题 的 各 种 分 析 ， 包 括 
抽取 关键 词 、 关 系 词 、 焦 点 词 以 及 问题 的 各 种 分 类 信息 ， 然 后 从 海量 文档 
中 检索 出 可 能 包含 答案 的 文档 段落 ， 再 在 证 据 库 中 找到 相关 的 证 据 支 撑 ， 
最 后 根据 许多 模型 对 结果 排序 找到 最 终 的 答案 。 

IBM 的 Watson 是 做 的 比较 有 影响 力 的 一 个 系统 ， 在 其 官网 发 表 了 一 
系列 相关 论文 "， 它 就 是 使 用 这 种 方法 ， 如 图 
Extraction over Structured Data: Question Answering with Freebase》 也 是 使 用 类 































































































GD http://researcher.watson.ibm.com/researcher/view_group_pubs.php?grp=2099 
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似 的 方法 ， 其 最 大 的 不 同 在 于 从 结构 化 知识 图 谱 中 找到 候选 子 图 是 先 确定 实 
体 ， 然 后 该 实体 周围 一 定 范围 内 的 子 图 即 可 作为 候选 子 图 。 从 无 结构 化 数据 
中 检索 出 潜在 包含 答案 的 段落 使 用 的 是 基于 搜索 的 方法 ， 例 如 论文 《Reading 
Wikipedia to Answer Open-Domain Questions》 中 的 Document Retriever 模块 
即 是 获取 候选 段落 ，Document Reader 模块 即 是 获取 答案 的 模型 。 
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图 8.15 


( 3 ) 端 对 端的 方法 

这 种 方法 是 基于 深度 学 习 的 模型 ， 它 首先 将 问题 表征 成 一 个 向 量 〈 这 
个 过 程 缺 省 略 了 问题 分 析 步 又 )， 然 后 将 答案 也 表征 成 向 量 ， 最 后 计算 这 
两 个 向 量 的 关联 度 ， 值 越 高 那么 就 越 可 能 是 答案 。 它 的 核心 就 是 在 表征 答 
案 的 时 候 如 何 把 候选 知识 〈 无 结构 化 段落 或 者 结构 化 子 图 ) 表征 进来 ， 在 
前 面 的 深度 学 习 应 用 章节 《阅读 理解 模型 和 排序 模型 ) 已 经 介绍 过 好 多 了 ， 
在 这 儿 就 不 重 述 了 。 

然而 一 个 真正 的 问答 系统 一 般 都 是 根据 要 解决 的 问题 融合 多 种 方法 来 处 理 。 

2. 任务 型 
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位 )， 如 订 机 票 就 需要 和 用 户 交 互 得 到 出 发 地 、 目 的 地 和 出 发 时 间 等 槽 位 ， 
然后 有 可 能 还 要 和 用 户 确 认 等 等 ， 最 后 帮 用 户 完 成 一 件 事 情 。 

系统 会 根据 当前 状态 (state) 和 相应 的 动作 Caction) 来 决定 下 一 步 
的 状态 和 反馈 ， 即 求 状态 转移 概率 P(r,s'|s,a)， 这 其 实 就 是 马尔 科 夫 决策 
过 程 的 思想 (MDP)。 针 对 对 话 系 统 ， 它 的 流程 如 图 8.16 所 示 。 首 先是 
得 到 用 户 的 Query《〈 如 果 是 语音 ， 需 要 语音 识别 转化 成 文字 )。 然 后 是 自 
然 语言 理解 模块 (Natural Language Understanding， 有 语音 的 也 叫 Spoken 
Language Understanding， 现 在 一 般 语音 识别 是 独立 的 模块 )， 主 要 是 槽 位 
识别 和 意图 识别 ， 而 且 这 时 候 识别 的 意图 有 可 能 是 有 多 个 的 ， 对 应 的 横 位 
也 会 不 同 ， 都 会 有 个 置信 度 。 然 后 就 是 对 话 管理 模块 ， 它 包括 Dialog State 
Tracking (DST) 和 Dialog Policy. DST 就 是 根据 之 前 的 信息 得 到 它 的 
state, state 其 实 就 是 slot 的 信息 : 得 到 了 多 少 slot， 还 差 什 么 slot， 以 及 它 
们 的 得 分 等 等 。Dialog Policy 就 是 根据 state 做 出 一 个 决策 ， 叫 action， 如 
还 需要 什么 slot， 是 否 要 确认 等 等 。 最 后 就 是 自然 语言 生成 模块 (Natural 
Language Generation)， 把 相应 的 action 生成 一 句 话 回复 给 用 户 。Dialog 
Policy 就 是 根据 state 做 一 个 决策 ， 只 要 有 了 state， 就 比较 容易 了 ， 所 以 
DST 就 比较 关键 。 目 前 DST 主要 有 这 么 几 种 方法 。 






























































































































































































































“98 to th route : R 29X 
o destination: airport | © 
airport confidence: 0.7 





route : 29X 
| destination: airport 







“Dialog state tracking 
F (s, 0)—s “Belief tracking” 
“Dialog modeling” 







Update 
dialog state 

















A “Planning” 
PE G (s')>a “Policy” 
> | “Control” 
“Route act : confirm | 4 
29X?” route: 29X 
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理解 语言 有 多 难 
(1) 生成 式 模型 ( Generative Model ) 
生成 式 模 型 把 对 话 状态 抽象 成 有 关系 统 action 和 用 户 SLU 结果 的 贝 叶 
斯 网 络 ， 所 以 它 的 求解 可 以 使 用 贝 叶 斯 推理 ， 如 图 8.17 所 示 。 
b'(s') = P(s,a,u) =n) Pl |u')P(u' |s',a) > Pls'|s,a)b(s) 










































































其 中 ，2 (s') 就 是 要 求解 的 新 的 对 话 状态 概率 , 五 是 SLU 的 结果 ， 这 个 
是 可 观察 到 的 ，s 是 上 一 轮 对 话 状态 ， 是 个 不 可 观察 变量 , u 是 上 一 轮 用 
户 的 真实 action， 也 是 个 不 可 观察 变量 ，a 是 系统 action， 是 可 观察 到 的 。 
加 一 撒 的 都 是 本 轮 的 表示 ，P(z 1z) 是 给 定 用 户 真 实 action 下 SLU 结果 的 
概率 ，P(u'|s',q) 是 给 定 系 统 action 和 本 轮 对 话 状 态 下 用 户 选 择 action Au’ 
的 概率 ，P(s'|s,q) 是 给 定 上 一 轮 对 话 状 态 和 系统 action 下 对 话 状态 转变 成 
b(s) 是 之 前 的 对 话 状态 概率 。 












































六 -一 


stystem action 


SLU result 

















(2) 判别 式 模型 ( Discrimitive Model ) 
判别 式 模 型 是 把 问题 抽象 成 一 个 分 类 问题 ， 根 据 之 前 对 话 的 一 些 特征 
来 预测 新 的 state 的 概率 

















b'(s')= P(s'f’) 





其 中 ，f' 是 从 SLU 结果 和 历史 对 话 信息 中 抽取 出 来 的 特征 。 
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这 其 实 就 是 个 分 类 问题 ， 当 然 也 可 以 把 slot 打分 看 成 序列 标注 问题 ， 
这 也 就 可 以 使 用 CRE 等 序列 标注 模型 来 处 理 了 。 只 要 是 分 类 模型 或 者 序列 
标注 问题 ， 那 么 也 就 可 以 使 用 深度 学 习 了 。 

而 且 只 要 是 有 明确 action 的 地 方 ， 也 就 可 以 融入 强化 学 习 的 激励 惩罚 
机 制 。 

(3) 规则 系统 

规则 系统 其 实 很 好 理解 了 ， 也 是 一 种 很 可 控 的 方法 。 对 话 管理 主要 
有 两 个 关键 因素 : state 和 action。 我 们 知道 NLU 模块 会 分 析出 句子 意 
图 和 相关 slot, MAA slot 都 是 有 置信 度 的 ， 那 么 state 其 实 就 是 意图 和 
slot, action 就 是 根据 state 的 一 些 回 复 。 对 于 某 一 个 具体 任务 来 说 ， 需 要 
询问 的 slot 其 实 是 可 以 预先 知道 的 ， 那 么 缺 哪些 slot 就 询问 哪些 slot 就 
可 以 了 ， 不 确定 的 slot 和 意图 就 和 用 户 进行 确认 。 对 置信 度 低 的 不 确定 
的 进行 确认 并 影响 到 之 后 相似 的 情况 其 实 就 是 强化 学 习 的 思想 了 。 当 然 
还 有 一 些 细节 需要 考虑 到 系统 里 面 ， 如 对 slot 的 范围 限定 、slot 和 slot 之 
间 的 冲突 ， 以 及 用 户 有 意 捣乱 的 情况 等 等 。 举 个 例子 ， 对 于 订 机 票 任务 ， 
用 户 回 复出 发 时 间 的 时 候 ， 这 个 时 间 不 能 是 当前 时 间 之 前 的 时 间 ， 否 则 
就 要 和 用 户 进一步 确认 ; 出 发 地 点 和 到 达 地 点 也 不 能 是 同一 个 地 点 ， 否 
则 也 要 确认 。 

所 以 规则 系统 就 是 有 一 个 配置 文件 ， 写 一 些 规 则 ， 然 后 线 上 把 意图 和 
slot 的 相关 字段 传 过 来 进行 解析 处 理 就 可 以 了 。 

我 们 把 机 票 类 简化 成 只 需要 用 户 的 出 发 地 和 目的 地 ， 来 看 一 个 具体 的 
如 下 示例 ， 大 家 就 会 比较 清楚 规则 系统 了 : 
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BR: 

{ 

this_intent = flight 
last_intent = flight 
} 


补 全 槽 位 : 
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{ 

if(sub_type = SEARCH) // 子 意图 类 型 
start_loc<city>|end_loc<city> // 该 子 意 图 下 需要 处 理 的 槽 位 











confirm = # 出 发 地 是 [start loc] | 目的 地 是 [end_ loc]# 吗 ? 
final = 好 的 ， 你 订 了 从 [start loc] 到 [end loc] 的 航班 ， 请 确认 。 








if(sub_type = LOW WEIGHT|UNCERTAIN) 
NO_SLOT 

confirm = 

final = 哎 蚜 ， 你 是 要 聊天 还 是 要 订 机 票 ? 


#8 A AR 


start_loc != end loc :: 出 发 地 与 目的 地 不 能 一 样 哦 。 


BAAR: 





// 类 型 约束 

type: 

start loc == LOC CITY|LOC TOWN|LOC FLIGHT AIRPORT // 正确 类 型 
start loc ~= LOC COUNTRY|LOC PROVINCE|LOC ROAD // 不 正确 类 型 
end loc == LOC CITY|LOC TOWN|LOC FLIGHT AIRPORT 

end loc ~= LOC COUNTRY|LOC PROVINCE|LOC ROAD 


// 范围 约束 
content: 
start_loc == 


end_loc == 


start_loc: 
is must = 1 // ORAR 1: 必 填 档 2:2, RAP eA 
repeat_time = 2 // 未 填 时 重复 问 几 次 


end loc: 


is must = 1 
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repeat time = 2 
} 


回答 : 

{ 

normal: 

null out = 我 问 的 不 是 这 个 啊 

intent true = 好 的 ， 我 跟 您 确认 下 具体 的 信息 。 


start_loc: 

type true content true = 出 发 地 已 更 新 成 功 。 
type true content false = 出 发 地 已 更 新 成 功 。 
type correlate = 您 的 出 发 城市 是 ? 

type false = 您 从 哪个 城市 出 发 呢 ? 


end_loc: 

type true content true = 目的 地 已 更 新 成 功 。 
type true content false = 目的 地 已 更 新 成 功 。 
type_correlate = 您 要 去 哪个 城市 ? 

type false = 您 去 哪个 城市 呢 ? 





针对 任务 型 对 话 系统 的 这 3 类 方法 各 有 特点 ， 基 于 模型 的 方法 需要 
有 标注 的 训练 数据 ， 而 在 数据 缺失 的 情况 下 ， 规 则 系统 会 比较 有 效 。 规 则 


























BARET NLU 的 重要 性 ， 因 为 它 用 到 了 NLU 的 1-best 结果 ， 而 不 是 
N-best 结果 。 
3. 闲聊 型 








闲聊 型 的 对 话 系统 更 多 地 是 人 和 机 器 没有 明确 限定 的 聊天 ， 如 果 前 两 
个 类 型 是 打 机 器 的 “智商 ” 牌 的 话 ， 那 么 这 个 类 型 就 是 打 机 器 的 “情商 ” 
牌 ， 让 人 感觉 机 器 更 加 亲切 ， 而 不 是 冷冰冰 的 完成 任务 (如 果 回 复 语句 自 
然 且 有 意思 的 话 ， 其 实 也 不 那么 冷冰冰 )。 
闲聊 型 对 话 系统 主要 有 3 种 方法 : 规则 方法 、 生 成 模型 和 检索 方法 。 
(1) 规则 方法 
20 世纪 60 ER, FHA + WEREMA JET + 科 尔 比 共同 编写 的 
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个 聊天 机 器 人 ELIZA 就 是 使 用 纯 规 则 方法 ， 这 种 方法 就 是 写 一 个 较 泛 化 的 
模板 ， 然 后 回复 一 个 或 多 个 相应 的 模板 ， 如 下 面 两 个 规则 。 








(?X are you ?Y) 


(Would you prefer it if I weren ‘t ?Y) 


((2* ?X) I want (?* ?Y)) 
(You really want ?Y) 


(Why do you want ?Y) 





“4A iit I want to play basketball， 那 么 就 会 回复 Why do you want 
to play basketball 或 者 You really want to play basketball. Ar LA HEMI A 
统 关键 是 如 何 写 一 堆 规则 和 线 上 的 快速 匹配 。 目 前 没有 哪个 系统 是 纯 规 
则 的 了 ， 规 则 方法 顶 多 只 是 在 一 些 其 他 方法 处 理 不 好 的 情况 下 的 一 个 
补充 。 

(2) 生成 模型 

生成 模型 是 随 着 深度 学 习 的 热潮 而 提出 的 比较 火热 的 方向 。 前 面 的 深 
度 学 习 章节 详细 介绍 了 很 多 模型 ， 现 在 我 们 简单 回顾 下 思想 。 它 首先 使 用 
一 个 RNN 模型 把 输入 句子 “ABC” 表 示 成 一 个 向 量 ， 然 后 把 这 个 向 量 作 
为 另 一 个 RNN 模型 的 输入 ， 最 后 使 用 语言 模型 生成 目标 句子 “WXYZ”。 
这 种 方法 的 优点 是 省 去 了 中 间 的 模块 ， 缺 点 是 生成 的 大 多 是 泛泛 的 无 意义 
的 回复 、 前 后 回复 不 一 致 ， 或 者 有 句子 不 通顺 的 问题 〈 一 句 话 不 通顺 其 实 
都 很 难 解 决 )。 好 多 人 也 在 融合 上 下 文 、Topic、 互 信息 等 来 解决 多 样 性 问 
题 ， 但 遗憾 的 是 ， 只 使 用 这 种 方法 效果 并 不 尽 人 意 《〈 而 且 非 常 依赖 于 大 量 
高 质量 的 训练 语 料 )， 它 可 以 结合 其 他 模型 和 策略 来 处 理 。 例 如 Google 发 
表 的 这 篇 论文 《Smart Reply: Automated Response Suggestion for Email》， 就 
非常 值得 一 读 ， 它 要 完成 的 任务 是 邮件 的 自动 回复 。 这 更 多 的 是 一 个 简化 
版 的 对 话 系 统 ， 论 文 为 了 能 生成 高 质量 的 回复 ， 首 先 用 图 方法 事先 聚 类 出 
个 高 质量 集合 ， 最 终 的 回复 都 是 在 该 集合 中 ， 这 算是 较 实 用 的 一 个 生成 
系统 了 ， 如 图 8.18 所 示 。 
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W X Y Z <eos> 
A B C <eos> WwW X Y Z 
Context Reply 
(Previous Sentences) 
T 
PO py -> Pr’ |X -> Xr) -J [ POM Yoe -> Vea) 
t=! 
图 8.18 














(3) 检索 方法 

检索 方法 的 思想 是 ， 如 果 机 器 要 给 人 回复 一 句 话 ， 假 设 这 人 句 话 或 相似 
的 话 之 前 有 人 说 过 ， 只 需要 把 它 找 出 来 就 可 以 了 。 这 种 方法 就 需要 事先 挖 
掘 很 多 的 语 料 。 它 最 基本 的 流程 就 是 首先 进行 NLU， 然 后 从 语料库 中 召 
回 一 些 可 能 的 回复 ， 最 后 使 用 更 精细 和 丰富 的 模型 (语义 相似 度 、 上 下 文 
模型 等 ) 找 出 最 合适 的 回复 给 用 户 ， 期 间 一 定 要 注意 处 理 “ 答 非 所 问 ” 的 
现象 。 语 义 相 似 度 的 技术 前 面 也 介绍 过 了 。 对 话 还 少不了 这 几 个 核心 技 
术 : 意图 识别 、 上 下 文 模型 、 个 性 化 模型 和 自学 习 。 意 图 识别 其 实 是 语言 
量化 的 问题 ， 目 前 是 通过 分 类 、 聚 类 、 语 义 相 似 度 和 模板 等 多 个 技术 来 解 
决 。 上 下 文 模型 就 需要 省 略 补 爹 ， 把 缺失 的 信息 补 爹 了 ， 那 其 实 就 是 单 轮 
对 话 了 ， 否 则 就 要 结合 上 下 文 的 Topic 和 Keyword 来 处 理 ， 主 要 的 宗旨 就 
是 不 能 语义 跑 偏 了 。 个 性 化 模型 不 光 要 考虑 用 户 画 像 ， 还 要 考虑 场景 (时 
间 、 地 点 等 )。 个 性 化 我 觉得 重点 在 机 器 能 否 记 住 用 户 的 状态 并 给 出 相应 
的 回复 ， 就 像 朋 友之 间 一 样 ， 假 如 你 感冒 了 ， 然 后 又 想 去 打球 ， 那 么 朋友 
就 会 问 :“ 你 感冒 了 还 去 打球 啊 ”? 是 不 是 感觉 很 亲切 ， 这 就 需要 进行 话题 
识别 ， 自 然 就 会 引出 话题 的 关系 识别 ， 如 话题 冲突 、 话 题 连贯 等 等 。 自 学 
习 需 要 结合 用 户 聊 天 过 程 中 的 反馈 《情感 分 析 ) 来 对 当前 的 对 话 进行 评估 
是 否 可 再 利用 。 


如 果 把 问答 型 、 任 务 型 和 聊天 型 都 融合 到 一 个 对 话 系统 中 《不 同 的 系 
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统 侧重 点 会 不 用 ) ， 就 是 如 图 8.19 所 示 。 





Query 分 析 


分 词 /词性 标 l P 对 话 管理 
在 ze ep Hy i ra 对 话 状 态 追 踪 
上 下 文 模型 
指 代 消解 
省 略 补 全 


语音 识别 





图 8.19 

对 话 系 统 评价 。 对 于 问答 型 ， 现 在 能 回答 的 更 多 的 是 实体 ， 所 以 也 很 
容易 评价 。 对 于 任务 型 ， 从 整体 就 是 看 该 对 话 是 否 完成 了 用 户 的 任务 ， 所 
以 也 是 可 评价 的 。 对 于 闲聊 型 ， 由 于 闲聊 回复 太 多 样 ， 所 以 这 个 任务 是 很 
难 自动 评价 的 ， 它 等 同 于 图 灵 停 机 问题 (是否 存在 这 样 一 个 程序 ， 它 能 够 
计算 任何 程序 在 给 定 输 入 上 是 否 会 结束 )， 被 证 明 是 不 存在 的 。 举 个 通俗 
例子 : 你 能 写 个 程序 ， 来 判断 你 的 男 一 个 程序 是 否 有 Bug 吗 ? 所 以 闲聊 型 
任务 更 多 的 需要 人 工 评价 以 及 反馈 。 









































8.3 语言 的 特殊 性 
人 类 是 由 古 猿 进化 而 来 的 。 古 猿 又 是 由 低 等 灵 长 类 动物 进化 来 的 〈 约 
5000 万 年 前 )。 人 的 听觉 、 视 觉 、 嗅 觉 、 味 觉 和 触觉 这 些 感 官 都 是 在 进化 






































过 程 中 一 直 存在 的 〈 也 就 是 原始 信号 ) ， 而 人 的 思想 却 是 一 步 一步 “ 进 化 ” 
来 的 。 思 想 的 体现 是 行为 ， 不 管 是 动物 阶段 还 是 古 猿 阶段 ， 那 个 时 候 的 思 
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想 很 简单 ， 行 为 基本 体现 就 是 吃喝 拉 撒 、 打 架 、 生 殖 后 代 。 而 现 阶段 的 人 
的 思想 却 是 非常 复杂 的 ， 他 可 以 使 用 并 建造 工具 ， 建 立 组 织 〈 国 家 、 社 会 、 
学 校 等 )， 研 究 万 物 包 括 人 类 自己 ， 探 索 宇宙 等 等 ， 而 语言 也 是 随 着 思想 
逐步 “进化 ”来 的 ， 因 为 语言 就 是 思想 传递 的 媒介 ， 也 是 人 类 特有 的 ， 如 
图 8.20 所 示 。 














































































































既然 语言 是 人 类 思想 的 传递 媒介 ， 那 么 就 可 以 使 用 任何 符号 来 表示 语 
言 。 中 国人 用 汉字 表示 ， 美 国人 用 英文 字母 表示 ， 你 也 可 以 自己 创造 符号 
来 表示 ， 只 要 使 用 的 人 双方 认可 就 行 ， 如 数学 家 就 用 数学 公式 来 表达 思 
想 。 乔 姆 斯 基 认 为 人 组 织 语言 遵循 一 定 的 语法 规则 ， 而 且 这 是 先天 性 的 知 
识 ， 叫 做 普通 语法 ， 正 是 有 这 种 语法 规则 的 存在 才 可 以 把 字 组 织 成 句子 来 
表达 思想 (但 是 真是 这 样 吗 ? 为 什么 不 是 人 根据 大 脑 强大 的 推理 泛 化 机 制 
从 个 例 中 学 习 到 更 丰富 的 句子 模式 的 使 用 呢 ? )， 尽 管 有 基本 的 语法 规则 ， 
但 是 几乎 所 有 的 语法 规则 都 存在 例外 ， 对 这 些 例 外 人 却 可 以 轻松 自如 的 应 
对 。 拿 汉语 来 说 ， 常 用 词 不 到 1 万 个 ， 这 些 词 可 以 按照 语法 规则 组 成 句子 ， 
而 且 句 子 长 度 不 固定 。 学 过 排列 组 合 的 人 都 可 以 知道 ， 这 将 会 产生 几乎 无 
穷 多 个 句子 ， 去 除 掉 不 符合 语法 规则 的 也 剩 下 很 多 ， 所 以 对 计算 机 来 说 这 
已 经 造成 了 很 大 的 困难 。 如 何 量化 ( 表示 ) 这 么 多 语义 呢 ? 所 谓 的 大 数据 
在 这 种 组 合 爆炸 面前 就 不 成 大 数据 了 ， 这 也 是 为 什么 现在 深度 学 习 表 征 语 
义 没有 语音 图 像 出 色 的 原因 之 一 。 

然而 在 现实 中 语言 的 贫乏 也 是 有 目 共 睹 的 ， 你 表 定 有 过 一 些 情景 很 难 
用 语言 来 描述 的 经 历 ， 如 未 知事 物 、 一 些 主观 感觉 、 气 味 、 痛 苦 等 描述 性 
的 东西 ， 但 是 这 些 东 西 可 以 靠 隐喻 来 弥补 一 部 分 ， 如 用 一 些 感受 过 的 来 形 
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容 没 有 感受 过 的 。 例 如 ， 你 形容 一 个 女人 长 得 漂亮 怎么 形容 ,“ 漂 亮 ”“ 身 
材 好 ”“ 皮 肤 好 ”等 字眼 ， 但 是 用 隐喻 就 不 一 样 了 ,，“ 楼 桃 小 嘴 ”“ 娴 娜 多 
姿 的 身材 ”"“ 吹 弹 欲 破 ”， 看 吧 ， 隐 喻 丰富 了 语言 (理解 时 需要 人 的 深层 推 
理 和 抽象 能 力 ) ， 但 是 这 些 隐 喻 对 计算 机 又 造成 了 另外 一 些 困难 。 如 何 理 
解 隐喻? 

语言 的 贫乏 自然 造成 了 语言 的 上 收 义 ， 同 样 的 词 要 表示 不 同 的 意思 ， 更 
难 的 是 ， 语 言 中 本 身 就 包含 很 多 粗糙 卜 义 的 字眼 (如 “这 里 *”“ 那 里 ”“ 很 
快 *“ 一 些 ”)， 然 而 人 类 的 视觉 系统 中 就 存在 一 个 “什么 ”系统 和 一 个 “ 哪 
里 ”系统 ， 所 以 当面 沟通 ， 多 数 可 能 的 卜 义 就 会 明朗 起 来 。 而 且 和 人 们 在 生 
活 中 并 不 需要 那么 精确 〈 如 “这 里 ”“ 那 里 ”， 并 不 需要 精确 到 空间 坐标 上 
具体 的 某 一 个 经 纬度 )， 但 是 对 于 计算 机 就 要 面临 一 个 新 的 问题 。 如 何 解 
决 歧义 ? 所 以 好 多 专业 都 有 自己 的 无 歧义 沟通 语言 ， 如 数学 家 用 公式 、 程 
序 员 用 程序 语言 。 因 此 ， 目 前 NLP 好 多 任务 (分词 、 词 性 标注 、 专 名 识别 、 
指 代 消 解 等 等 ) 最 大 的 难点 就 在 处 理 歧义 。 

可 以 看 到 ， 语 言 本 身 具 有 不 完备 性 ， 计 算 机 单纯 理解 人 类 的 语言 已 经 面 
临 很 大 的 困难 了 ， 虽 然 NLP 好 多 任务 准确 率 很 高 了 ， 但 是 与 人 类 应 对 语言 的 
程度 相 比 ， 还 太初 级 ， 更 不 用 说 人 类 的 其 他 能 力 〈 推 理 、 感 知 、 思 考 、 意 识 
等 )， 所 以 现在 好 多 系统 本 质 上 还 停留 在 “关键 词 ”层面 ， 因 为 没有 更 好 的 表 
示 方 法 ， 尽 管 深度 学 习 给 了 一 种 表示 思路 〈 浮 点 向 量化 )， 但 是 还 很 初级 。 

语言 到 底 是 怎么 来 的 ? 为 什么 是 人 类 特有 的 ? 这 些 问 题 与 物质 的 结 
构 、 宇 宙 的 起 源 、 生 命 的 本 质 和 智能 的 产生 一 样 很 难 回 答 ， 现 在 也 没有 明 
第 的 答案 。 正 如 哥 德 尔 不 完备 定理 向 我 们 证 明 的 : 当 我 们 试图 解释 世界 
寸 ， 我 们 永远 都 无 法 证 明 我 们 的 解释 是 对 的 ， 所 以 也 许 人 类 是 不 是 只 有 跳 
出 自己 的 维度 空间 才能 真正 悦 然 大 悟 ? 但 是 人 如 果真 能 跳出 自己 的 维度 空 
间 ， 还 能 回 到 自己 的 空间 吗 ? 但 是 如 果 人 类 及 其 所 在 的 世界 是 “造物 主 开 
发 的 一 个 游戏 ”( 量 子 物理 的 波 粒 二 象 性 、 不 确定 性 原理 等 理论 以 及 佛教 
认为 一 切 如 梦幻 泡影 )， 那 么 语言 就 是 这 个 游戏 的 一 个 版 本 升级 ， 也 许 过 
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8.3 语言 的 特殊 性 


若干 年 后 ， 人 类 又 会 进化 出 其 他 特殊 的 技能 〈 如 果 人 类 还 能 生存 那么 久 的 





话 ， 因 为 进化 需要 很 长 时 间 )。 


em 











开发 出 像 科 幻 
极目 标 ， 也 是 人 工 智 
单纯 处 型 

















Hie ( 














列 如 电影 《her》) FR ABA 
目标 之 一 。 对 于 对 话 














能 的 

















语言 的 难点 外 ， 还 有 很 多 难点 。 


的 
系统 来 说 ， 除 了 刚才 所 说 的 


智能 


系统 是 人 们 的 终 





(1) 物理 场景 很 难 融合 。 沟 通 是 有 场景 的 ， 时 间 、 地 点 、 环 境 等 等 ， 


目前 的 上 下 文 处理 











和 推理 相对 人 类 智能 都 很 初级 。 例 如 两 个 人 的 交谈 : A: 











快 点 走 ; B: 30; 这 个 对 话 发 生 时 间 在 14:21， 那 个 30 其 实 表示 的 是 14:30 











走 ， 对 两 个 当事人 很 
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以 很 好 的 理解 环境 
知识 ， 对 于 计算 机 去 
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很 困难 。 所 以 说 ， 围 
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ABE ARO, MX 
绕 语言 的 智能 系统 路 还 很 漫长 ， 
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依靠 许多 数据 ， 进 





而 依靠 机 器 的 高 公 





能 来 训练 模型 ， 











依 曼 体 系 是 图 灵机 的 一 种 实现 ) 的 计算 机 是 一 套 明确 的 确 
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码 规则 ， 所 以 
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是 明确 
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里 解 ， 换 做 机 器 呢 ? 直接 就 异 了 。 the 
并 且 可 以 在 交流 的 过 程 当中 学 习 到 知识 3 
I 很 难 。 
(2) 知识 很 难 融 合 。 知 识 这 个 东西 本 来 就 是 很 难 定义 ， 
都 还 比较 初级 ， 能 解决 的 问题 非常 非常 
六 计算 机 这 


ES Tt SEAL A 
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灵活 应 用 



































目前 的 知识 建 
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种 明确 定义 的 体系 却 
也 需要 大 家 共同 努力 














念 就 是 “计算 即 智能 ”， 
目前 
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智能 ”) 在 可 
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为 “ 浅 层 


预见 的 未 来 是 可 以 做 好 的 ， 但 是 任何 进步 都 是 从 量变 到 质变 的 过 程 ， 所 以 要 


想 达 到 这 种 浅 层 智能 ， 





基础 硬 伯 


EN: 
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F)、 物 联网 和 自动 化 等 过 和 
本 ， 根 据 人 类 大 脑 的 推理 
以 对 于 自学 习 、 推 理 、 
量 的 东西 ， 计 算 机 仍然 量 无 头绪 。 打 造像 人 类 这 样 的 
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然而 人 类 的 智 





口 


Co 





























只 等 





基础 科学 、 基 础 通讯 、 
E 却 非常 高 级 ， 它 是 依 


和 泛 化 能 力 〈 高 维 的 相似 度 ) 来 学 习 的 ， 所 
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困难 的 ， 那 是 不 是 现 有 的 计算 体系 就 不 适合 表征 这 些 东 西 呢 ? 是 不 是 需要 
先 创造 相应 的 非 图 灵机 概念 的 计算 模式 呢 ? 我 不 知道 ! 总 之 ， 人 工 智 能 还 
有 很 长 的 路 要 走 ， 而 且 人 工 智能 更 是 物理 学 、 生 物 学 、 脑 科学 、 机 械 
计算 机 科学 等 多 个 学 科 共 同 发 展 、 互 相 促进 的 结果 。 
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8.4 ”问题 与 思 

. 简 述 NLP 的 发 展 历史 。 

.如 何 结合 深度 学 习 来 完成 专 名 识别 ? 
句法 分 析 有 哪些 方法 ? 

如 何 建立 知识 图 谱 ? 如 何 量化 知识 ? 
理解 语言 有 哪些 难点 ? 

.语言 如 何 量化 ? 

. Seq2Seq 模型 在 完成 对 话 系 统 时 有 哪些 问题 ? 
. 人 工 智 能 在 现 阶 段 真 的 很 可 怕 吗 ? 


ja 
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Eh. 
2 Ja 





我 们 全 书 都 在 讲 自 然 语言 处 理 ， 包 括 相 应 的 机 器 学 习 技术 《其 中 也 有 

深度 学 习 及 其 一 些 典型 应 用 )， 重 点 介绍 了 搜索 引擎 、 推 荐 系统 、 对 话 系 
统 等 几 个 系统 ， 还 探讨 了 对 人 工 智 能 的 一 些 看 法 。 
从 获得 信息 的 角度 来 说 ， 搜 索引 擎 是 用 户主 动 获取 信息 的 方式 ， 推 荐 
系统 是 被 动 地 给 用 户 呈 现 信息 的 方式 。 不 少 人 认为 搜索 引擎 和 推荐 系统 的 
技术 已 经 很 成 熟 了 ， 其 实 并 不 然 ， 它 们 只 是 在 目前 技术 和 产品 形态 下 比较 
成 熟 了 。 就 使 用 户 画 像 来 说 ， 现 在 的 系统 都 是 给 用 户 打 各 种 标签 来 表示 用 
户 的 兴趣 (算是 一 种 折衷 的 表示 方案 )， 但 具有 同一 个 标签 的 人 难道 就 有 
相同 的 兴趣 吗 ? 人 的 兴趣 有 时 候 用 自然 语言 都 难以 表示 ， 尤 其 是 短期 兴 
趣 ， 更 不 用 说 几 个 标签 了 《不 准确 性 )。 再 加 上 现在 各 家 公司 的 产品 都 是 
孤立 的 ， 也 就 是 说 每 一 个 产品 获得 的 都 是 用 户 的 部 分 信息 ， 导 致 了 捕捉 用 
户 兴 趣 的 稀 朴 性 〈 不 完整 性 )。 不 知道 大 家 有 没有 看 过 《 磨 眼 》 这 部 电影 ， 
电影 里 的 那个 系统 才 是 真正 的 个 性 化 ， 它 可 以 监控 一 个 人 到 秒 级 别 。 个 性 
化 发 展 的 越 远 ， 也 意味 着 用 户 越 没 有 隐私 〈 个 性 化 和 隐私 一 定 是 个 矛盾 
体 )， 所 以 ， 现 在 的 推荐 系统 其 实 个 人 认为 更 像 是 一 个 无 需 用 户 选 择 的 关 
键 词 订 阅 器 。 

搜索 引擎 其 实 也 是 产品 设计 上 的 一 个 简化 ， 由 于 技术 达 不 到 直接 给 用 
户 想 要 的 信息 ， 所 以 呈现 给 用 户 所 有 通过 关键 词 筛选 后 的 结果 ， 然 后 用 户 









































































































































































































































































































































































































































结语 





自己 再 去 得 选 。 最 理想 上 


用 户 的 喜好 ， 了 解 用 户 的 情感 。 这 
5 系统 就 是 解决 所 有 需求 的 最 终 形 态 
这 种 情景 什么 时 候 才 能 真正 实现 呢 ? 我 不 知道 ， 





Bote 














是 少不了 )， 那 么 i 








-5 


3 是 见 不 到 了 。 











技术 必然 一 直 在 进步 ， 它 会 让 人 类 的 生活 
产品 创新 和 商业 模式 创新 都 是 社会 进步 的 因素 )。 尽 管 我 
一 系列 量变 的 阶段 。 
我 觉得 在 这 之 前 少不了 相应 基 耐 
社会 是 一 点 
子 ， 就 像 现在 的 汽车 工业 也 经 过 


(当然 理念 创新 、 





们 向 往 的 目标 很 美好 ， 但 是 中 间 一 定 会 经 过 
前 面 说 的 “ 浅 层 智能 ”， 
互联 网 化 和 自动 化 这 几 个 进程 。 




















午餐 ， 没 


























的 情景 自然 是 直接 呈现 给 用 户 想 要 的 结果 ， 当 用 户 
表达 不 清楚 的 时 候 ， 和 他 交互 确认 好 ， 再 给 他 想 要 的 信息 ， 





而 且 会 记录 下 






































没有 人 能 











口吃 成 大 胖 














和 唯一 形态 ， 其 




















越 来 越 方便 、 




















时 实 就 是 真正 的 对 话 系统 但 是 并 不 能 





他 该 有 的 形态 还 
fea 























高 效 和 美好 





要 想 达 到 











点 进步 的 ， 











产业 持续 升级 、 
天 下 没有 免费 的 
TSE, RK 

















TUE AIAN ATA EE LPT ARORA, TRATES Sie, IZ, 
下 结合 产品 设计 解决 好 用 户 某 些 方面 的 








脚踏实地 ， 在 现 有 技术 和 数据 形态 














需求 ， 创 造 出 真正 的 社会 价值 ， 
程 师 ， 无 论 你 





作为 技术 工 











过 不 少 问题 ， 那 么 就 应 该 带 着 问题 去 寻找 和 思考 新 的 技术 、 
总 之 ， 多 学 习 ， 


案 ， WA BE 
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让 人 们 的 生活 逐 








多 思考 | 


步 高 效 便捷 。 
:做 什么 事情 ， 什 么 方向 ， 在 工作 中 肯定 遇 到 


新 的 解决 方 
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m FET LIX 
人 民 邮 电 出 版 社 


| | www.epubit.com.cn 








异步 社区 的 来 历 
异步 社区 (www.epubit.com.cn) 是 人 民 邮 电 出 版 a 
社 旗下 IT 专业 图 书 旗舰 社区 ， 于 2015 年 8 月 上 线 新 Ei F 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余年 的 IT 
专业 优质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 出 版 
与 电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 结合 、 
传统 印刷 与 POD 按 需 印刷 结合 的 出 版 平台 ， 提 供 最 
新 技术 资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 






































社区 里 都 有 什么 ? 


购买 图 书 

我 们 出 版 的 图 书 涵盖 主流 T 技术, 在 编程 语言 .Web 技术 、 数 据 科学 等 领域 有 众多 经 典 畅销 图 书 。 
社区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 会 
定期 发 布 新 书 书 讯 。 


























下 载 资源 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 程序 源 代码 。 
另外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 注册 成 为 社区 用 户 就 可 以 免费 下 载 。 








与 作 译 者 互动 

很 多 图 书 的 作 译 者 已 经 入 驻 社区 , 您 可 以 关注 他 们 , 咨询 技术 问题 可 以 阅读 不 断 更 新 的 技术 文章 ， 
听 作 译 者 和 编辑 畅 聊 好 书 背 后 有 趣 的 故事 ;还 可 以 参与 社区 的 作者 访谈 栏目 ， 向 您 关注 的 作者 提出 采 
访 题目 。 


























灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 纸 质 图 书 直接 从 人 民 邮 电 出 版 社 书库 发 货 ， 电 子 
书 提 供 多 种 阅读 格式 。 

对 于 重 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服务 ”用户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 

用 户 账户 中 的 积分 可 以 用 于 购书 优惠 积分 ”元 购买 图 书 时 在 。 : 
里 填 入 可 使 用 的 积分 数值 ， 即 可 扣 减 相应 金额 。 





特别 优惠 
购买 本 书 的 读者 专 享 异步 社区 购书 优惠 券 。 


使 用 方法 : 注册 成 为 社区 用 户 ， 在 下 单 购书 时 输入 57AWG ， 然 后 点 击 “ 使 
用 优惠 码 ”， 即 可 享受 电子 书 8 折 优惠 〈 本 优惠 券 只 可 使 用 一 次 )。 



































纸 电 图 节 组 合 购买 7 :- 
价格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购买 方式 ， 
oe EE- 
社区 里 还 可 以 做 什么 ? ERA 





























FEREIR 

您 可 以 在 图 书页 面 下 方 提交 勘误 ， 每 条 勘误 被 确认 后 可 以 获得 100 积分 。 热 心 勘误 的 读者 还 有 
机 会 参与 书稿 的 审 校 和 翻译 工作 。 

写作 


社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写作 的 您 可 以 在 此 一 试 身手 ， 在 社区 里 分 享 您 的 技 
术 心 得 和 读书 体会 ， 更 可 以 体验 自 出 版 的 乐 起， 轻松 实现 出 版 的 梦想 。 

如 果 成 为 社区 认证 作 译 者 ， 还 可 以 享受 异步 社区 提供 的 作者 专 享 特色 服务 。 

会 议 活动 早 知 道 


您 可 以 掌握 IT 圈 的 技术 会 议 资 讯 ， 更 有 机 会 免费 获 赠 大 会 门票 。 





























加 入 异步 


扫描 任意 二 维 码 都 能 找到 | 我们 : 





异步 社区 。””” 微 信服 务 号 WATAS 。 。 ”官方 微 博 。 QQ 群 : 436746675 
社区 网 址 : www.epubit.com.cn 

EDHE: 异步 社区 
SHA: @ 人 邮 异 步 社区 。 ”人民 邮电 出 版 社 信息 技术 分 社 


投稿 & 咨询 : contact@epubit.com.cn 








文本 上 的 算法 一 一 深入 浅 出 自然 语言 处 理 


自然 语言 处 理 是 研究 人 机 之 间 用 自然 语言 通信 的 理论 和 方法 ， 是 人 工 智能 领域 的 一 个 重要 分 支 ， 有 着 非 
常 广泛 的 应 用 空间 。 

本 书 结合 作者 多 年 学 习 和 从 事 自然 语言 处 理 相关 工作 的 经 验 ， 力 图 用 生动 形象 的 方式 深入 浅 出 地 介绍 自 
然 语言 处 理 的 理论 、 方 法 和 技术 。 本 书 抛弃 繁琐 的 证 明 ， 提 取出 算法 的 核心 ， 帮 助 读者 尽快 地 掌握 自然 语言 
处 理 所 必 备 的 知识 和 技能 。 


通过 本 书 ， 你 将 学 习 和 理解 : 


概率 论 、 信 息 论 、 贝 叶 斯 法 则 等 基础 知识 ; * PageRank 和 相似 度 计 算 的 原理 ; 
最 优化 问题 、 最 大 似 然 估计 以 及 梯度 下 降 法 ; x ”搜索 引擎 的 原理 、 架 构 和 核心 模块 ; 
机 器 学 习 和 深度 学 习 的 热门 话题 ; x ”各 种 推荐 算法 的 原理 和 工作 机 制 |; 
程序 优化 的 方法 ; 太 ”自然 语言 处 理 和 对 话 系 统 等 技术 难题 。 


+ + + 对 
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ISBN 978-7-115-47587-9 
异步 社区 www.epubit.com.cn 
新 浪 微 博 @ 人 邮 异 步 社 区 
投稿 /反馈 邮箱 contact@epubit.com.cn 

94787115"475879"> 


分 类 建议 : 计算 机 /机 器 学 习 / 自 然 语言 处 理 
人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 


